cmecab
2009 年 3 月 24 日
コメントはありません
cmecab — Mecab-Pyhton高速バインディング
標準のmecab-pythonバインディングでは一語ずつPython側に返すので、大量のテキスト(数十Gレベル)を処理する際に、なかなか処理時間がかかります。
これを一語ずつと言わず、パースしたものすべてをC言語側でまとめて一度でPython側に返すようにすることで高速化をはかります。
ベンチマーク結果
1.5kb程度の同一の短いテキストを10000回形態素解析した結果を取得するのに、従来のmecab-pythonでは22.7[s]かかるところ、cmecab版では14.1[s]で処理できます。
約2倍速いですか!!
使うしかないでしょう.
# 地味にmecab-pythonをインストールしなくて良くなるのも便利.
