The Monitor

Datadog の予測モニタリングのためのメトリクス予測機能について

7 min read

Share article

Datadog の予測モニタリングのためのメトリクス予測機能について
Emily Chang

Emily Chang

どのような事象が本当の問題になる恐れがあるのかを判断でき、対策を講じるためにどれだけの準備期間が必要となるのかが通知され、自動的にアラートが発行される環境は理想的ではないでしょうか?このような理想を現実にするため、Datadog に予測機能が追加されました。

予測アルゴリズムは、機械学習を使用してメトリクスがどのように進化するか継続的に評価し、将来的な値を予測します。予測機能を使用すると、将来的に予想される傾向を視覚化でき、問題が発生すると予測される時点からどれだけ前にアラートを発行するかを指定できます。

詳細はこのビデオをご覧ください。

未来に向けた準備

下のグラフでは、予測機能を使って、このサーバーのディスク容量がいつ不足するかを予測しています。分かりやすく表示されていますが、さらに良いことに、予測アラートを設定して、ディスク容量不足が発生する前に、事前に通知するタイミングを設定できます。

Predictive monitoring tools like Datadog help you forecast disk space usage trends
Predictive monitoring tools like Datadog help you forecast disk space usage trends

季節変動について

異常検出と同様に、予測でもメトリクスの季節変動を考慮できます。このアルゴリズムは、時刻や曜日によるメトリクスの変動パターンを考慮して予測を行います。

次のグラフは、API リクエストの数が日中の特定の時間でパターン化されていることを示しており、毎日、日中にピークに達する傾向が見られます。このメトリクスの予測をグラフ化することで、定期的な変動などの予測曲線を視覚化し、いつこのメトリクスが対応(負荷分散のためにサーバーをプロビジョニングするなど)を必要とする値に達するかを予測できます。次に、予測アラートを作成し、問題が発生することが予測される時点からどれだけ前の時間(1 日前、1 週間前など)に通知するかを指定できます。

Forecasting seasonal metrics with predictive monitoring tool Datadog
Forecasting seasonal metrics with predictive monitoring tool Datadog

ベースラインシフトへの適応

メトリクス値が急変すると、アルゴリズムは最新の挙動を自動的に解析し、信頼度の高い予測を行います。下のグラフでは、誰かがサーバーからログを消去しており、大量のディスク容量が解放されたことがわかります。予測機能では、この変更が考慮され、自動的に調整されます。

Predictive monitoring forecast changes after baseline shift
Predictive monitoring forecast changes after baseline shift

重要なビジネスメトリクスの予測

インフラストラクチャーやアプリケーションの重要なメトリクスを追跡するだけでなく、予測機能を使用して、最重要なビジネスメトリクスがどのように変化する可能性があるかを予測できます。次の例では、特定の時点でプラットフォームにログインしているユーザー数を予測しています。このメトリクスは通常、平日にピークに達し、週末に急激に低下します。また、時間の経過とともに着実に増加している傾向が見られます。

Forecasting business metrics - predictive monitoring in Datadog
Forecasting business metrics - predictive monitoring in Datadog

グラフの右半分は、過去のデータに基づいて、アクティブユーザー数が翌月にどれだけのスピードで増加するか予測しています。Datadog でこのメトリクスの予測を追跡することで、四半期の目標(緑色で表示)を達成する見込み予測できます。このメトリクスの予測をノートブックに追加して、このメトリクスやその他の主要なメトリクスについてチームと簡単にディスカッションすることもできます。

予測モニタリングによる一元的な情報の表示

ダッシュボードに予測を追加すると、過去の傾向と将来のインサイトを組み合わせて、サービスヘルスとパフォーマンスをさらに詳細に視覚化して把握できます。次のダッシュボードでは、重要な下位レベルのメトリクス(I/Oやデータベース接続など)を、Web サーバーへの異常なトラフィック、予測された API 要求トラフィック、データベースサーバーのディスク使用量の予測など、上位レベルのインサイトと比較して相関できます。

Use forecasts for predictive monitoring to create even more comprehensive overview dashboards in Datadog
Use forecasts for predictive monitoring to create even more comprehensive overview dashboards in Datadog

今日の予測が明日のインサイトになる

Datadog で予測機能が利用できるようになりました。ダッシュボードやアラートに予測機能を実装する方法の詳細については、Datadog のドキュメントを参照してください。予測機能と、異常値/外れ値の検出機能などの機械学習を利用する他の監視機能を組み合わせることで、メトリクスについてこれまで以上に有用なインサイトを獲得できます。Datadog のアカウントを取得されていないのでしたら、このリンクからにサインアップいただけます。

Related Articles

機械学習によりスマートなアラートを生成するための 3 つのシナリオ

機械学習によりスマートなアラートを生成するための 3 つのシナリオ

インテグレーションのまとめ: AI スタックのモニタリング

インテグレーションのまとめ: AI スタックのモニタリング

Watchdog は根本原因の情報と Kubernetes の異常を表面化します

Watchdog は根本原因の情報と Kubernetes の異常を表面化します

Watchdog for Infra でインフラストラクチャーの異常を自動検出

Watchdog for Infra でインフラストラクチャーの異常を自動検出

Start monitoring your metrics in minutes