ふり返る暇なんて無いね

日々のメモ書きをつらつらと

監視の閾値の考え方1

監視の閾値をどう設計していますでしょうか。

たとえば、アプリケーションサーバのステータスログ監視。
うちでは、下記の4項目でユニークをとって10件の閾値を越えたらアラート通知するようになっています。

日に1,2件しか発生しないエラーは無視して、多く発生するエラーに対して優先的に対応するという思想です。

この設計で問題になるのは以下の点かと思います。

  • 日に1,2件しか発生しないけど、致命的なエラーの発見が遅れる
  • 値の変化を見ないといつエラーが発生したのか分かりにくい
  • アクセスが少ないパスのエラーに気がつきにくい
  • 特定パスだけでなく全体的にエラーになっているときにわかりい

正規表現でパスやvhost毎に閾値を変えられるようにしてはいますが、設定漏れがあったりしてなんとかしたいところ。



アクセスログ監視にはほかにも論点があるのだけれども、また書く。アクセスログ監視以外の閾値に関してもまた後で書く。