2007年05月01日(Tue) 山頂に参上 [長年日記]
● ネットワーク機器が停電するとルーティングテーブルが変化するとはこれ如何に
● [tDiary] RSSでは更新したパラグラフと違うエントリーが更新される
この日誌の4月18日のp03を更新したら、RSSでは、4月18日のp07が更新されたように見えているようです。
いや、違うか。index.rdfを見ると、4月18日の全部のパラグラフの更新時刻が更新されてるんですね。じゃあいいのかな?
● SuSE 9.0で動かしているBitChannelがconflictをうまく処理できなかった
cvs-1.11.6-85。ログインしてcvs upしてconflictを解消してcommitしてごにょごにょしてるうちに復活した。
OSを更新しなくちゃねえ。
● この日誌の負荷対策をする
p****-ipbf***marunouchi.tokyo.ocn.ne.jpから、 1秒に2回ずつのリクエストがあった。User agentは「IE/4.0」。 先週も別のIPアドレスをブロックしたのだけれどキリが無いので User agentでもブロックします。古いIEを使ってる方、ごめんなさい。
次にうっとうしいのは、Googleのbot「DoCoMo/1.0/N505i/c20/TB/W20H10 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)」。 これは転送データ量の制限のための、 一定時間内のリクエスト回数の制限によくひっかかる。 とはいえ、503を返していればリクエストの間隔はながくなるようなので放置。 他のGoogleのbotとはリクエストの回数がぜんぜん違う。 携帯電話用のプロキシみたいなものなんだろうか?
今日はYahooのbotも多かった。「KDDI-CA23 UP.Browser/6.2.0.5 (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)」とか、 冒頭の携帯の機種名みたいな部分が、DoCoMo/2.0/SO502iになったり J-PHONE/2.0/J-SH03になったり。 こちらもこのまま負荷制限のみをかけておく。
で、負荷制限は、システムの負荷をRubyから知るライブラリをCGIの起動時に呼んで、 負荷が高い時や、同じIPアドレスから同時に多数のリクエストがあったり、 一定時間に多数のリクエストがあったりした場合に503を返して ログに記録するようにしています。 で、時間のあるときにログを見直して.htaccessを編集する。
たつをの ChangeLog (www.textfile.orgより) に書いてあるように乱数でもいいような気もするけど、 確率をえいやと決めるのは苦手なので。
● あけてくれ - おれカネゴンの「算数できんのやっぱり気にしすぎとや」日記より、「科学を振興するだけして後は放置ということを繰り返した結果、科学以外に取り柄がないために就職できない科学難民が現代日本に多数出現しつつある。」多数出現どころか、日本から国外に溢れ出している。涙。
● You’d rather see Digg go down fighting than bow down to a bigger company. (digg.com)
かっこえー。ShiroさんのWiLiKi (2007/05/02 02:12:54 PDT) より。
makerss.rbのキャッシュ(最近50件分)より古い日付を更新するとそうなります。1日にたくさんのセッションを作るタイプの人だと、簡単にオーバーしちゃうかも。もうちょっと大きくしますかね?
s/セッション/セクション/
なるほど、そうでしたか。ふるまいがこれまでと違うように見えたのでちょっとだけ心配になっただけでした。ざっと数えたら4月18日から30日までで36セクションほどでした。<br><br>こんなに古い記事を書きかえることはあまり無いのでこのままでもいいのですが、増やすとすればどれくらい増やすのがいいかな。今現在、makerss.cacheは40KBで、latest.rb(44KB)と同じ程度の大きさです。いっぽう、1ヶ月分のキャッシュは、200704.parserが119KB、200704.rbが158KB。これと同じくらいの大きさを許すとすれば、3-4倍の件数をキャッシュすることになりますね。
最近のツッコまれどころ