Perlによるモンゴル語の句生成

2007年8月29日0 コメント

京都大学大学院情報学研究科(2005年当時)のエンヘバヤル(Sanduijav ENKHBAYAR)氏は、モンゴル語の自然言語処理を行っている。2004年には「モンゴル語間句生成ライブラリの仕様書1.1」を発表し、自身の製作したPerl用のライブラリについて解説している。

冒頭の文章では、「作成者の私のみならず、これからモンゴル語の自然言語処理をしていく方でも使ってもらえるように書いている」とある。そこでさっそく去年の暮れ頃、本人宛てにメールを送ってお願いしたところ、ライブラリのファイルを分けていただくことができた。

仕様書を見ると、モンゴル語のキリル文字アルファベットを[大文字/小文字]、[母音字/子音字]などに分類して変数化し、さらに母音と子音をそれぞれ分類して異なる変数として表している。

母音は[基本母音字/補助母音字]という区分がされているが、言語学的には母音のみを表す文字か、いわゆる半母音と母音がペアになった文字かどうかの区別である。さらに子音は、[母音を伴わなくてもよい子音字/必ず母音を伴う子音字]を区別している。

これはモンゴル語の正書法でおなじみの、いわゆる9子音と7子音で、この子音のいずれが前後にくるかなどの非常に複雑な規則によって、接辞を伴う際に語末音節の母音が省略されるかどうかが定められる。モンゴル語の正書法を難解にしているのは、実にこの母音省略の規則だといってもよく、ネイティブでさえも綴りを間違えることは珍しくない。

こうした母音の省略(母音消失)の規則以外にも、母音の挿入、母音調和による格語尾の選択などといった規則があるが、すべてこれらを関数として表し、自動的に句生成が行えるような仕組みになっている。

自然言語処理については素人の私が見ても、理論的に非常によくできたものであることは一目瞭然である。ただ、難をいえば、使えるようにするためにPC環境を整えるなどの設定がやっかいで、身近にいるPerl専門のエンジニアの手を借りなければとても手に負えなかった。

このライブラリを実装したプログラムを作ることができれば、精度の高いモンゴル語スペルチェッカーなどの開発も可能なはずだ。今後の研究の進展を切に希望する次第である。

<参考サイト>
http://pine.kuee.kyoto-u.ac.jp/member/enkh/mnlp/phrase.html
<参考文献>
Sanduijav ENKHBAYAR, 宇津呂武仁, 佐藤理史, 「日本語・モンゴル語間の機能表現の機械翻訳」, 京都大学大学院情報学研究科.
M2 Sanduijav ENKHBAYAR, 「モンゴル語間句生成ライブラリの仕様書1.1」,京都大学大学院研究科, 2004.
この記事が気に入ったら...

コメントを投稿