形態素解析とTF-IDF

メモ.
この手のサービスをうまく組み合わせるといろいろ遊べそうだね.

形態素解析
文章を最小限の単位で分割(分かち書き)する作業.
フリーのツールだと
KAKASI,
MeCab(和布蕪)
Chasen(茶筅)
この辺が有名どころ.

xreaなんかだとKAKASIとchasenがプリインストールされてた.(ヤッタネ!
KAKASIだと品詞という情報自体がないのかな...


参考)
wikipadia | 形態素解析
XREA-SUPPORT | chasenかKAKASIを導入していただけないでしょうか



TF-IDF
指定のキーワードが文章の中でどのくらい重要な指標を持つかを評価するもの.
TFはテキストに含まれるキーワードの出現回数で,DFがサンプリングされたページ数の中に特定のキーワードが含まれるページ数.
そこから指標を算出する.


参考)
技林 | コンテクストサービスの基礎知識
たつをのホームページ | 形態素解析と検索APIとTF-IDFでキーワード抽出

追記)
xreaだとPHPをCGI版として動作させる必要有.
XREA | PHPをCGIとして動かす方法について


contributor nao : 2006年06月19日 13:42

trackback

trackback for this entry URL:
http://blog.graffiti-web.org/mt/mt-tb.cgi/421

comment