メモ.
この手のサービスをうまく組み合わせるといろいろ遊べそうだね.
形態素解析
文章を最小限の単位で分割(分かち書き)する作業.
フリーのツールだと
・KAKASI,
・MeCab(和布蕪)
・Chasen(茶筅)
この辺が有名どころ.
xreaなんかだとKAKASIとchasenがプリインストールされてた.(ヤッタネ!
KAKASIだと品詞という情報自体がないのかな...
参考)
・wikipadia | 形態素解析
・XREA-SUPPORT | chasenかKAKASIを導入していただけないでしょうか
TF-IDF
指定のキーワードが文章の中でどのくらい重要な指標を持つかを評価するもの.
TFはテキストに含まれるキーワードの出現回数で,DFがサンプリングされたページ数の中に特定のキーワードが含まれるページ数.
そこから指標を算出する.
参考)
・技林 | コンテクストサービスの基礎知識
・たつをのホームページ | 形態素解析と検索APIとTF-IDFでキーワード抽出
追記)
xreaだとPHPをCGI版として動作させる必要有.
XREA | PHPをCGIとして動かす方法について
trackback for this entry URL:
http://blog.graffiti-web.org/mt/mt-tb.cgi/421