2003年02月07日(Fri) ウニモグの走る朝 [長年日記]
● 予算のある町ではこれで除雪をしている。予算のない町は…すべってたのしい。ウニモグを最初に知ったのは「エリア88」だったような気がする。
● 自動的に日誌をカテゴライズするtDiary
ぐうたらな私はセクションタイトルにカテゴリーを書くのが面倒。 日誌の内容を見てソフトウェアが自動的に近い内容の日誌を見つけてくれないかと、 試してみました。
「近い内容」を、 今回は、「namazuのインデックスに共通の単語が登録されている」 と定義してみました。 具体的には、 目的の日と調べてる日に共通する単語のスコアの合計を、 全ての単語のスコアの合計をそれぞれの日について算出したものの積の平方根で、 割りました。 同じ日についてこの値を計算すると 1 に、 共通の単語を持たない日の日記と計算すると 0 になります。
さて、結果は…。
まったく関係のない日の日誌が上位に出てきました。 やっぱりpreについて書いた日誌に近い日誌にもpreのことが書いてあったほしいよね。
そんなわけで実験失敗。敗因は、
- 助詞や助動詞も大量にインデックスされていて、 それらが共通の日誌が上位にきてしまった。
- インデックスが一日単位に作られていて、比較するには話題が多すぎる。
ことくらいでしょうか?今後何ができるか。
- インデックスする単語の品詞を限定する - このホストにchasenの入る場所がないので難しい
- セクション毎にインデックスを作る - namazu側で対処するにはhtmlsplit.plの作りがいまいちだし、 tDiary側で対処するにはhoge_style.rb diary.rhtml squeeze.rb くらいの大改造が必要。
- どこかのSPAMフィルターの記事にあったように、 日誌を書く度に、tDiaryにそれぞれのカテゴリに入る単語を学習させる。 そのうち自動的にカテゴリ分けをしてくれるようになる。 - セクション毎にインデックスを作るよりもっと大変。
と妄想は広がるのですが、本職もあるしこの辺でおひらきということに。 幹にカテゴリ機能がマージされたらzunda_style.rbでも対応するようにしてみよう。 ちゃんちゃん*1。
*1 strfmon(3)をrubyの拡張ライブラリとして作る、というのも楽しそうだけど…。ウズウズ。
● 渡航情報 ミュンヘン(ドイツ):ミュンヘン安全保障会議
2月7日(金)から9日(日)にかけて、ミュンヘン市内中心部のホテル・バイエリッシャホーフで毎年恒例のミュンヘン安全保障会議が開催されますが、同期間中、特に8日(土)は市内中心部各地で大規模なデモが予定されていますので、デモに巻き込まれないようご注意願います。
とのこと。土曜日に危険なのは、
- 10:00マリエンプラッツ→17:00イザールトア、カールスプラッツ
- 10:30オデオンズプラッツ→14:00ミュンヘナーフライハイト
とのこと。買い物に行きたいんだけどWal★Mart周辺で済ますべきか。
2ch経由、海外安全ホームページより。
最近のツッコまれどころ