ギャン・バギャム・ソルドン

一打粉砕に怒喝の心力を込め、万物を叩き割る剛剣の刃を生み出さん

日常のあれこれ(雑)

最近忙しい、いやブログにこうして忙しいなんて書いてる時点で忙しくないのがバレバレなんだけど。ただアニメ見て散歩して勉強してゆるく就活してるだけだった3月に比べたら、大学に通ってる今の生活はまぁ多忙と言っても差し支えないと思う。何より研究室のゼミが始まったのが大きくて「卒業研究のテーマ何にすればいいんだろう…?」って言う漠然とした不安に最近はずっと悩まされてますね。

で、今はテーマを決める為に色んな知識を吸収してる段階なんだけど、右も左も分からないので取り敢えず気になった事について調べてみるか…って気持ちになってる。

そんな訳でこの先は自学した事を軽~いノリで少しだけ簡潔にアウトプットしときますねって感じの文章です。もしかしたら1年続けるかもしれないし、三日坊主で終わるかもしれない。

 

今回興味を持ったのは形態素解析。2年くらい前に仲の良いオタクが推しアイドルのブログにコメントしようとしたら、文章中の「無我夢中だし」って一節にある「中だし」にアウト判定が出てコメント出来てなかったのが面白くて、そっからずっと興味はあったんだよね。ポケモンの主人公の名前を「ちんぽ」に出来ないアレと同じ現象ね。ただ、これはちゃんと形態素解析をすると「無我夢中」と「だし」で分けられるからアウト判定は出ない筈なんだ。

形態素解析とは、文章を形態素(これ以上分割出来ない言語単位、単語で大丈夫っぽい)に分けて品詞を判定する一連の処理のことらしい。こんな感じのね。

f:id:kiui_4:20180425200556j:plain

まぁ、そのくらいは知ってたんだけど、中身でどんな処理が行われてるかが凄く気になったので今回はそれを調べてみた。

 

ラティスの構築

f:id:kiui_4:20180425200806j:plain

 見て見て、Excel使って図を描いたんだけどクッソ下手で笑う。ラティスってのは文章から考えられる形態素(単語)の区切り方を全て書き出した図のこと。「東京都に住む」の短文だけでも6通りの区切り方がある訳よ。因みにBOSはBegin of Sentence でEOSはEnd of Sentence の略ね。「東京都」が「東京・都」なのか「東・京都」なのか、人間は簡単に判別できるけど、計算機(PC)にこれを判断させるのって骨が折れるんだわ。近頃はAIが盛んに話題になってるけど、AIって多分皆が思ってるより万能じゃないからねって事を最近強く思うわよ。で、この形態素解析の重要な部分ってラティスに示されてる6通りの単語の区切り方から最適な区切り方を見つける事、つまりどの矢印に沿ってBOSからEOSまで行くかにあると拙者は思ったんす。

 

 えーと、調べたところ区切り方を3種類ほど見つけた。

最長一致法:大きな形態素を優先的に割り当ててく手法(雑)

文節最小法:区切る数を極力少なくしていこうぜ!みたいなやつ

接続コスト最小法:これが今のところポピュラーらしいので後述

 

接続コスト

f:id:kiui_4:20180425202536j:plain

 この図も自分でExcel使って描いたんすよ、偉くない?例えば短文が3つあった時に「私」って単語の後ろに続く言葉として1番自然なのは?って問題、極端な例過ぎるんだけど、多分大多数の人は「が[助詞]」って答えると思う。まぁ、こんな感じである単語の後ろにはどんな品詞が接続しやすいか・しにくいかを考えることが出来るんだ。ここで使われてるのが条件付き確率ね。直前の単語が「私」の時(条件)に後ろに動詞(名詞・助詞 etc…)が連なる確率が定義出来て、その確率を元にして接続コストが数値として設定出来る。その確率が低い程、接続コストは大きくなるって認識があると最高。単語と単語の間、つまり図の矢印1つ1つに対して接続コストが一意に定まるんだ。

んでんでんで、後は接続コスト最小法って名前から連想してほしいんだけど、BOSからEOSまでに通る5~6個の矢印に定められてる接続コストの和を考えて比較して、その和の1番小さい矢印の辿り方、単語の通り方を最適な区切りとするんだ。たかがこんな短文を解析するのにめちゃくちゃな労力が掛かってるんだこれが。これを開発した先人ヤバすぎワロタw

 

上にある例の最適な矢印の辿り方が下の図ね。

f:id:kiui_4:20180425200822j:plain

 人間にやらせると簡単なんだよな~本当に。そんな訳でこれが形態素解析の簡単な中身でした。この先に係り受け解析とか、単語ごとに感情値を定義して文章のネガティヴ度やポジティブ度を測る試みがあるらしくて、それにもちょっと興味あるかな。因みに、この文章はほぼそのままゼミでの発表の際の原稿になるぜ!いぇーい!

後はね~、論文読むの難し過ぎて笑うわ。大学卒業した奴らみんなこんなことしてたのマジ!?

 

てな訳で、今日はこの辺で失礼。