PyCon mini OsakaでCharacter-Level CNNについて話してきた。

スライド
Character-Level CNN
終わりに

東京在住ですが、なぜかグランフロント大阪で開催されたPyCon mini Osakaで登壇して来ました。
osaka.pycon.jp

前日から大阪に乗り込んでました。（久しぶりに弊社の大阪オフィスに行った。）

スライド

発表内容は以下のスライドになります。

Characeter-Level CNN from tdualdir

www.slideshare.net
（画像がぼやけていてすまない・・・）
最初はCNNやTensorFlowの基礎的な説明をして後半からCharacter-Level CNNについて話しました。

Character-Level CNN

Character-Level CNNのところを説明します。

Character-Level CNNとは

文書を文字（Character）単位で区切ってそれをCNNに通してテキスト分類します。　※単語単位でないのに注意

今回やること

今回は、テキストからネガティブかポジティブかを判断するタスク（いわゆる感情分析のネガポジ）をこなす分類器を作ることを考えます。
結果から言うと、オリジナル論文*1では上手く行かずに、違うアーキテクチャで上手く行きました。

なぜ文字レベルなのか？

文字レベルで自然言語処理をするというのは珍しいと思いますが（大体は単語レベルで区切る）、そのメリットは

前処理がいらない（日本語なら分かち書きが必要ない）
タイポやスペルミスが多い文書でも有効（レビュー,チャットなど）
文書じゃない物にも適応できる（URL, Tex, プログラミングコードなど）

などが挙げられます。

論文

上手くいったアーキテクチャですが、
Joshua Saxe, Konstantin Berlin: eXpose:A Character-Level Convolutional Neural Network with Embeddings For Detecting Malicious URLs, File Paths and Registry Keys(https://arxiv.org/abs/1702.08568)
を参考にしました。
内容はCharacter-Level CNNを使って悪意あるURLやファイルパスを検出するという内容です。
かなり丁寧に書かれていてわかりやすい論文でした。

構成・アーキテクチャ

処理の流れとしては

文字を低次元に埋め込む
カーネルサイズが違う複数のCNNに入れて特徴を出力
特徴を一つに結合
全結合層に通して分類

です。

1の埋め込みは、（文字 × 埋め込み次元）行列を埋め込み層として用意して、対応する文字の行ベクトルだけを更新します。

f:id:tdualdir:20180520142008p:plain:w300 — 図1.埋め込み層

2については論文に書いてる図を借りると次のようになります。

f:id:tdualdir:20180519210753p:plain — 図２.CNNの処理

1×2,1×3,1×4,1×5というサイズのフィルターにそれぞれ通します。
様々なWindowで文字のCooccurrence(共起性)を学習してると考えられます。

f:id:tdualdir:20180519211149p:plain — 図3.CNN部分の解釈

3.特徴を一つに結合、4.全結合層に通して分類はそのままの意味です。

TensorFlowで実装してTensorboardのグラフに書くと以下のようになります。

f:id:tdualdir:20180519205644p:plain — 図4.アーキテクチャ

日本語のデータセット

日本語のデータセットとして最近公表されたばかりのchABSA-dataset*2を使いました。
上場企業の有価証券報告書をベースに作成されたデータセットで、特徴としては「何が」ポジティブ/ネガティブだったのかと言う情報を含んでいます。
これで、「何が」のネガティブとポジティブの数を比べて多い方を文書全体の感情としました。
その結果、訓練データとテストデータを合わせて2830文書が対象となりました。