アーカイブ

‘morphological analysis’ タグのついている投稿

cmecab

2009 年 3 月 24 日 コメントはありません

cmecab — Mecab-Pyhton高速バインディング
標準のmecab-pythonバインディングでは一語ずつPython側に返すので、大量のテキスト(数十Gレベル)を処理する際に、なかなか処理時間がかかります。
これを一語ずつと言わず、パースしたものすべてをC言語側でまとめて一度でPython側に返すようにすることで高速化をはかります。

via: TekTekBLOG: cmecab — Mecab-Pyhton高速バインディング

ベンチマーク結果
1.5kb程度の同一の短いテキストを10000回形態素解析した結果を取得するのに、従来のmecab-pythonでは22.7[s]かかるところ、cmecab版では14.1[s]で処理できます。

via: cmecab — Mecab-Pyhton高速バインディング

約2倍速いですか!!
使うしかないでしょう.
# 地味にmecab-pythonをインストールしなくて良くなるのも便利.