カモランドのナビゲーション改善として,ページに対して関連するページを表示するというテーマがある.

今のところ関連ページとしては,

  • 相互にリンク関係があるページ
  • 同一カテゴリ内に存在するページ

をそうだと定義して,それへのリンクをページの下の方にまとめて表示するようにしているのだが,どうも物足りない.

リンク関係以外を用いて,何とか関連ページを導出できないか? と悩んでいるのだが,一つの方法としてページに含まれる単語を使う方法があるようだ.

要するに,似たような単語が含まれるページは,関連性が高いという話だ.

しかしそこまでやるには相当長い道のりなので,とりあえずページからキーワードを抽出するという実験をやってみた. ついでに,そのキーワードごとに含まれるページを一覧化して,本の最後にあるようないわゆる「索引」もどきを作ってみた.

キーワード抽出の方法は,以下の通り.

  1. ページに含まれる文字列のうち,見出しの文字列だけを,mecabで形態素解析する
  2. その結果のうち,品詞情報が "名詞/一般" のものをキーワードとしてページ名と一緒に記録する (転置インデックスもどき)
  3. 全ページの処理が終わったら,キーワードを軸にしてページ名を出力する

見ての通り,キーワードとしてふさわしくない単語が多数出ている.「例」とか「次」とか.

ここから先どう進めたら良いか,頭を抱えてしまう orz しかし,こういう気分も悪くはない.

kamolandをフォローしましょう


© 2017 KMIソフトウェア