自作AmazonSearchを若干チューニング

まだ Drk7.jp さんのサービス再開まで時間がありそうなので、自前のAmazonSearchスクリプトをチューニングしてみました。

前回は BulkfeedsAPI の app/similar.xml を使い、登録されているRSSの特徴語を取得していましたが、これだと少し古い記事では殆ど取得できません。

今回は app/terms.xml の方を使って特徴語を取得するようにしました。これなら個別ページのHTMLを直接食わせてもあまり良い結果が出ないので、以前「Amazon検索結果向上にチャレンジしてみた」で生成するようにした「記事だけのデータ」を API に渡すようにしてます。

ただ、HTMLタグが混ざっていると特徴語抽出の精度が落ちるので、CPAN の「HTTP::TokeParser」を用いてタグを除去してから食わせるようにしました。

これで、古い記事でもなんとか表示できるようになりました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です