blog/content/post/2013-06-23-00001579.md

60 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: Nagiosで監視をしていて障害を検知した一部始終
author: kazu634
date: 2013-06-23
url: /2013/06/23/_1793/
geo_latitude:
- 38.305995
geo_longitude:
- 141.022701
geo_public:
- 1
wordtwit_posted_tweets:
- 'a:1:{i:0;i:1791;}'
wordtwit_post_info:
- 'O:8:"stdClass":13:{s:6:"manual";b:0;s:11:"tweet_times";i:1;s:5:"delay";i:0;s:7:"enabled";i:1;s:10:"separation";s:2:"60";s:7:"version";s:3:"3.7";s:14:"tweet_template";b:0;s:6:"status";i:2;s:6:"result";a:0:{}s:13:"tweet_counter";i:2;s:13:"tweet_log_ids";a:1:{i:0;i:1791;}s:9:"hash_tags";a:0:{}s:8:"accounts";a:1:{i:0;s:7:"kazu634";}}'
categories:
- nagios
---
Nagiosを用いて自分で管理しているブログなどの監視を実施しています。今回、障害を検知して対応を実施するまでの一部始終を書き散らかします。
<img src="http://farm4.staticflickr.com/3770/9086339526_885a1a655d_z.jpg" width="640" height="438" alt="Nagios Core" />
<!-- more -->
## 一報はこれ
一報は Nagios からの通知でした:
<blockquote class="twitter-tweet">
<p>
<a href="https://twitter.com/kazu634" onclick="__gaTracker('send', 'event', 'outbound-article', 'https://twitter.com/kazu634', '@kazu634');">@kazu634</a> Redmine Response Time @ localhost is WARN. (null). (1371630414)
</p>
<p>
&mdash; bot_kazu634 (@bkazu634) <a href="https://twitter.com/bkazu634/statuses/347269245949845505" onclick="__gaTracker('send', 'event', 'outbound-article', 'https://twitter.com/bkazu634/statuses/347269245949845505', 'June 19, 2013');">June 19, 2013</a>
</p>
</blockquote>
## 調査
ここからわかるのは、VPSで運用している Redmine のレスポンスタイムが悪化しているということ。ただわからないのは、結果的に自分自身で動作している Web サーバのレスポンスタイムが悪化していると通知していること。自分自身に対してなんだから、普通はレスポンスタイムが悪化するなんてことはないはずなんですが。。。
一時切り分けのために、手元の iPhone から Redmine に対してアクセスしてみます。たしかにアクセス出来ない……なぜ。。。
次に手元の iPhone から SSH で問題のサーバにアクセスしてみます。これは接続できる。ログも参照できる。この辺で名前解決がうまくできていなさそうと気づきました。
## ムームードメインのサポートページ
ムームードメインのサポートページに行くと、DOS攻撃を受けてレスポンスタイムが悪化していると告知されています。原因はこれか
<img src="http://farm4.staticflickr.com/3747/9084133981_638b6e3753_z.jpg" width="402" height="640" alt="障害・メンテナンス情報 | ムームードメイン" />
たしかにこれだとレスポンスタイムが悪化する。自分で管理しているサーバ側の問題では無さそうなので、とりあえずDOS攻撃が終息するのを待つことにします。
## 残された疑問
あれっ、でも、DNSへの問い合わせ結果ってキャッシュされていなかったっけ調べてみると、Linuxだとキャッシュしないで毎回DNSに問い合わせをするのがデフォルトみたいですね……知らなかった。。。