しきい値ベースのアラートは、インフラストラクチャーとアプリケーションの問題を検出する場合に非常に効果的です。しかし、多くのユーザー連動型のメトリクスは、ベースラインが徐々にシフトしたり、定期的な変動パターンを示します(たとえば、週末と比較して平日が高いなど)。このようなメトリクスについて、誤検知アラームを頻繁に発生させることなく、予測できない動作を検出する静的なしきい値や変化率のアラートを設定することは困難です。
そこで、アルゴリズムによる監視を行います。Datadog の異常値/外れ値検知では、グループの挙動や過去のパターンを分析して、通常とは異なる値を自動的に識別する高度な機械学習機能が使用されます。いくつかのユースケースから、アルゴリズムによる監視にどのような利点があるのかを見ていきましょう。
シナリオ:ユーザートラフィックの異常な低下
異常検知に対して最も効果的な対応の 1 つは、過去のパターンに基づいて、ユーザートラフィックの異常を検出することです。たとえば、平日の営業時間のピーク時(木曜日の午後など)にある値が急激に低下する場合、その値が週末では正常であっても、問題を検出して異常値のアラートを発行できるようになります。
シナリオ:ベースラインの変化に伴う周期的な変動
異常検出はまた、ユーザー連動型の変動が繰り返し発生しているビジネスメトリクス(ログイン/サインアップ、トラフィック、チェックアウト)の異常を特定できるように設計されています。メトリクスがある傾向を示している場合でも、異常検出でメトリクスのベースラインの変動に応じて自動的に予測値範囲が調整され、異常値が特定されます。
シナリオ:分散データベースの異常な負荷
[外れ値の検出]は、通常のグループ行動からの逸脱を特定するのに役立ちます。これは、Web サーバー、ロードバランシングされるマイクロサービス、Cassandra などの分散データベース内のノードなど、作業を共有するノードクラスタで特に役立ちます。Cassandra ノードのプールに外れ値検出を適用すると、データベースがクラスタ全体に作業を適切に分散していることを自動的に確認できます。
機能を連携させてさらに高い効果を得る
異常値検出と外れ値検出を使用すると、異なる視点でインフラストラクチャーとアプリケーションを監視できますが、相互に連携させて補完することで、さらに詳細なインサイトを提供できます。たとえば、Web サーバーのプールによって処理されたリクエストの集計に異常値検出を適用し、個別の Web サーバーには外れ値検出を適用し、適切なロードバランシングを実現できます。
詳細情報
このブログでは、アルゴリズム監視によってメトリックの異常値と外れ値を自動的に識別できる多くの方法の一部について説明しました。インフラストラクチャーやアプリケーションについて、スマートなアラートを構築したいとお考えでしたら、すべての機能を 14 日間ご利用いただけるトライアル版をぜひ活用してください。