Monthly Archives: 6月 2008

Gadget

Amazonで色々購入

Xacti とか Caplio GX100 購入に伴って、HDD消費に拍車がかかってきました。我が家では外付け USB HDD として FAT32 250G, HTFS 320GB の 2 台、GLANTANK の Share 領域を共有の NAS として利用していますが、ムービーや写真データは 殆ど Mac だけで管理しているので HTFS ドライブに突っ込んでおり、320GB でもそろそろ手狭になってきてしまいました。それから GLANTANK 以外の外付け HDD は電源内蔵コンパクト筐体ですごく良いのですが、足元に置くしかないため子供がふざけて倒したりすることも多く、データ破壊も心配です。

そんなわけで、RAID対応 IO-DATA 1TB USB HDD を Amazon で予約注文しました。

アイ・オー・データ ミラーリング/ストライピング RAID対応USBハードディスク 1TB HDC2-U1.0

ついでに EMONE 用に下記リトラクタブルケーブルやらなにやら。加えてなぜか折りたたみキーボードも購入。

FILCO モバイルクルーザー PLS5USB

リトラクタブルケーブル・デュアル for W-ZERO3 [es]

リトラクタブル USBホストケーブル RCUHTC

WILLCOM Advanced/W-ZERO3[es]・W-ZERO3[es]対応 USBフレキシブルホストコネクタ USB2-C2

FILCO 折りたたみ式キーボード パピヨン FKB66PU

あとは色々機器が増えて足りなくなった Eneloop を追加。ちまちま2本ずつ充電するのに疲れたので4本同時にチャージ可能な充電器つきのものを。

SANYO eneloop 残容量チェック機能付 急速充電器セット (単3・単4用充電器) N-MR58TGS N-MR58TGS

一括配送にしていたんだけど予約やマーケットプレイスの商品も含まれていたので、結局は 4 回に分けて届くことに。殆どはもう配達完了で手元に届きましたが、まだ HDD だけは発送可能になっていない模様。

Plagger Programming Software

Plagger::Plugin::Filter::AutoTaggingをアップデート

Plagger::Plugin::Filter::AutoTagging を少し改変しました。

AutoTagging.pm

変更内容は以下の通り。

  • otsune さんの diff を適用&ちょっと修正 (db省略時処理とMeCab用Encode処理のパフォーマンス改善) < otsune さんThx!
  • sub init を plugin.init ハンドラに変更しました。(他のプラグインの初期化処理もそのようになっているようなので……)

実は otsune さんに書いて頂いたdiff をそのまま適用したところうまく動きませんでした。というのも、「db 省略時に id_safe を使ってファイル名を生成するように」とコードを追加されておられるのですが、Plagger::Util::filename_for で $feed が参照できないために動きませんでした。

で、これ自体は単純なミスだと思ってなんとか取り込ませていただこうとしたのですが、otsune さんの意図が「Feed毎に学習できるように」というものなのか、それとも単に「Pluginユニークなdb名を生成したい」からなのか、それともなにか他にもあるのか気になりだして悩んでしまいました。

とりあえず Plagger::Util::filename_for で id_safe が使えるように safe_id と id サブルーチンを実装(というか Plagger::Feed から持ってきた)し、$self->id で $self->plugin_id が返るようにしてお茶を濁しておきましたが、これでは「Feed 毎に学習を分ける」という目的は達成できません。

学習データが完全に共通の場合、特に generate_tags を有効にするとあっというまにラベルがどんどん増えてDBのサイズが膨らんでしまいますし、guess の精度にも影響があるかもしれないので Feed 毎に学習データを分けられる(もちろん共通にもできる)ようにしておいたほうが色々と都合が良いかも?

ちょっと悩みます。

あと、safe_id は Plugin.pm レベルで持っていてもいいような気がしました。でもそんなのは既に議論されていそうだし、私のやり方よりもよい別の実現方法が既に実装されているのかも?

最近 Plagger の事を調べたりプラグインを書くのもご無沙汰だったので分からないことが多いのですが、ボチボチやっていこうと思いますので何かあれば皆様是非ご教授くださいませ。

Plagger Programming Software

久しぶりにPlaggerでなんかやってみた

前回書いたとおり、Text::MeCab と Algorithm::NaiveBayes を利用して Auto Tagging する Plagger のプラグインを作成してみました。もちろん、Text::MeCab と Algorithm::NaiveBayes モジュールが必要です。

Plagger::Plugin::Filter::AutoTagging.pm

Perl のコード自体書いたのは久しぶりなので、あまり自信はないです。途中単純なミスにハマりながらもなんとか作りました。なにかおかしなところがあったら、是非ご指摘いただけると幸いです。

ちなみにしばらくの間、某所のDebien サーバで

– module: Filter::AutoTagging
config:
mecab_charset: utf-8
db:
generate_tags: 3
guess_tags: 3
threshold: 0.8
training: 1

とかやってテストをまわしていましたが、精度はイマイチです。generate_tagsでのキーワードの抽出方法はもう少しきちんと考えた方がいいかもしれない?あと、MeCab辞書が utf-8 の環境でしかテストしていません。

ちなみに config 項目の詳しい説明はこちら

Plagger/Plugin/Filter/AutoTagging

Plagger Programming Software

久しぶりにPlaggerでなんかやってみたくなった

ずっと前から Plagger の最新動向を追うのをやめてしまっていたのですが、しばらくぶりに最新バージョンにアップデートして遊んでみました。

まず Debian でサーバを立て、Plagger を trunk からインストール。なるべく多くのプラグインと依存モジュールを頑張って入れました。Search::Estraier が使ってみたかったので HyperEstraier もインストール。

Search::Estraier に関しては下記のURLを参照のこと。

http://subtech.g.hatena.ne.jp/miyagawa/20060504/1146744042
http://subtech.g.hatena.ne.jp/miyagawa/20060504/1146739431

HyperEstraier をインストールしてマスターを起動し、管理者アカウントとノードを作成。example にあった search.yaml を変更して試してみたらすんなり動きました。イカス。

さらに、形態素解析エンジンの MeCab とその Perl バインディングである Text::MeCab を試してみたくなったのでインストール。MeCab の辞書は UTF-8 へコンバートしました。

んで例の「分かち書き」を試してみるといい感じ。これで各単語数カウントしてベイズ推定使えば日本語でもある程度精度のよいスパム判定とか自動レイティングとかできちゃうんでしょうか?(そんな簡単にはいかないか……)

と思ったけど「そんなの既に誰かやってそうだなあ。ずいぶん長いこと Plagger のこと調べてなかったからよく分からないしなあ。」といういつもの葛藤に苦しみながらも、エイヤとチャレンジしてみることに。

read more

Impressions

思い立ったが吉見百穴

また突然思いつき、「吉見百穴」へ行ってきました。家から車で数十分のところにあるにもかかわらず、小さい頃遠足で行って以来殆ど行くこともなかったので、久しぶりです。

到着してみると駐車場はガラガラでしたが、お年寄りや家族連れがちらほら。入場料を払って中に入ると、おぼろげながら記憶にある景色が眼前に広がりました。吉見百穴は岩山に沢山の横穴が開いている遺跡で、発見時は住居と考えられていましたが大正時代以後は集合墳墓であるとのいうのが定説になっているようです。

→ Wikipedia : 吉見百穴

Yoshimi-Hyakketsu Yoshimi-Hyakketsu

また、第二次大戦中に軍需工場用トンネルが掘られ、途中まで入る事もできます。トンネル内は暗く、ひんやりしていて涼しかったです。他の家族連れの子供が怖がって早く出たがっている中、うちの息子は興奮して奇声を上げながら走り回っていました。

Yoshimi-Hyakketsu

横穴のいくつかには天然記念物の「ヒカリゴケ」が自生している穴があり、のぞいてみましたが光っているようには見えませんでした。光り方は時期によって異なるとのこと。(※たまたま近くに居たおじいさん談)

敷地内にはこじんまりとした資料館もあり、入場料を払っていれば無料で見学できます。入ってみると埴輪や土器が展示されていました。

Yoshimi-Hyakketsu

吉見百穴自体はぐるっと見て回っても数十分もあれば見て回れてしまいますので、あっけない感じです。ただ周辺には岩室観音堂や天王山自然公園等もあり、散策するにはもってこいかもしれません。のどかな時間を過ごす事ができました。

read more

GLANTANK

GLANTANKのHDD増設(覚え書き)

GLANTANK は2基の3.5″ HDD を搭載できますが、今まで160GB HDDx1 で運用してきました。たまたま1台120GB のHDD が余ったので、GLANTANK に増設して利用する事にしました。

read more