blog/content/labs/misc/2013-06-23-00001579.md

3.3 KiB
Raw Blame History

title author date geo_latitude geo_longitude geo_public wordtwit_posted_tweets wordtwit_post_info author categories
Nagiosで監視をしていて障害を検知した一部始終 kazu634 2013-06-23
38.305995
141.022701
1
a:1:{i:0;i:1791;}
O:8:"stdClass":13:{s:6:"manual";b:0;s:11:"tweet_times";i:1;s:5:"delay";i:0;s:7:"enabled";i:1;s:10:"separation";s:2:"60";s:7:"version";s:3:"3.7";s:14:"tweet_template";b:0;s:6:"status";i:2;s:6:"result";a:0:{}s:13:"tweet_counter";i:2;s:13:"tweet_log_ids";a:1:{i:0;i:1791;}s:9:"hash_tags";a:0:{}s:8:"accounts";a:1:{i:0;s:7:"kazu634";}}
kazu634
nagios

Nagiosを用いて自分で管理しているブログなどの監視を実施しています。今回、障害を検知して対応を実施するまでの一部始終を書き散らかします。

Nagios Core

一報はこれ

一報は Nagios からの通知でした:

@kazu634 Redmine Response Time @ localhost is WARN. (null). (1371630414)

— bot_kazu634 (@bkazu634) June 19, 2013

調査

ここからわかるのは、VPSで運用している Redmine のレスポンスタイムが悪化しているということ。ただわからないのは、結果的に自分自身で動作している Web サーバのレスポンスタイムが悪化していると通知していること。自分自身に対してなんだから、普通はレスポンスタイムが悪化するなんてことはないはずなんですが。。。

一時切り分けのために、手元の iPhone から Redmine に対してアクセスしてみます。たしかにアクセス出来ない……なぜ。。。

次に手元の iPhone から SSH で問題のサーバにアクセスしてみます。これは接続できる。ログも参照できる。この辺で名前解決がうまくできていなさそうと気づきました。

ムームードメインのサポートページ

ムームードメインのサポートページに行くと、DOS攻撃を受けてレスポンスタイムが悪化していると告知されています。原因はこれか

障害・メンテナンス情報 | ムームードメイン

たしかにこれだとレスポンスタイムが悪化する。自分で管理しているサーバ側の問題では無さそうなので、とりあえずDOS攻撃が終息するのを待つことにします。

残された疑問

あれっ、でも、DNSへの問い合わせ結果ってキャッシュされていなかったっけ調べてみると、Linuxだとキャッシュしないで毎回DNSに問い合わせをするのがデフォルトみたいですね……知らなかった。。。