どのような事象が本当の問題になる恐れがあるのかを判断でき、対策を講じるためにどれだけの準備期間が必要となるのかが通知され、自動的にアラートが発行される環境は理想的ではないでしょうか?このような理想を現実にするため、Datadog に予測機能が追加されました。
予測アルゴリズムは、機械学習を使用してメトリクスがどのように進化するか継続的に評価し、将来的な値を予測します。予測機能を使用すると、将来的に予想される傾向を視覚化でき、問題が発生すると予測される時点からどれだけ前にアラートを発行するかを指定できます。
詳細はこのビデオをご覧ください。
未来に向けた準備
下のグラフでは、予測機能を使って、このサーバーのディスク容量がいつ不足するかを予測しています。分かりやすく表示されていますが、さらに良いことに、予測アラートを設定して、ディスク容量不足が発生する前に、事前に通知するタイミングを設定できます。
季節変動について
異常検出と同様に、予測でもメトリクスの季節変動を考慮できます。このアルゴリズムは、時刻や曜日によるメトリクスの変動パターンを考慮して予測を行います。
次のグラフは、API リクエストの数が日中の特定の時間でパターン化されていることを示しており、毎日、日中にピークに達する傾向が見られます。このメトリクスの予測をグラフ化することで、定期的な変動などの予測曲線を視覚化し、いつこのメトリクスが対応(負荷分散のためにサーバーをプロビジョニングするなど)を必要とする値に達するかを予測できます。次に、予測アラートを作成し、問題が発生することが予測される時点からどれだけ前の時間(1 日前、1 週間前など)に通知するかを指定できます。
ベースラインシフトへの適応
メトリクス値が急変すると、アルゴリズムは最新の挙動を自動的に解析し、信頼度の高い予測を行います。下のグラフでは、誰かがサーバーからログを消去しており、大量のディスク容量が解放されたことがわかります。予測機能では、この変更が考慮され、自動的に調整されます。
重要なビジネスメトリクスの予測
インフラストラクチャーやアプリケーションの重要なメトリクスを追跡するだけでなく、予測機能を使用して、最重要なビジネスメトリクスがどのように変化する可能性があるかを予測できます。次の例では、特定の時点でプラットフォームにログインしているユーザー数を予測しています。このメトリクスは通常、平日にピークに達し、週末に急激に低下します。また、時間の経過とともに着実に増加している傾向が見られます。
グラフの右半分は、過去のデータに基づいて、アクティブユーザー数が翌月にどれだけのスピードで増加するか予測しています。Datadog でこのメトリクスの予測を追跡することで、四半期の目標(緑色で表示)を達成する見込み予測できます。このメトリクスの予測をノートブックに追加して、このメトリクスやその他の主要なメトリクスについてチームと簡単にディスカッションすることもできます。
予測モニタリングによる一元的な情報の表示
ダッシュボードに予測を追加すると、過去の傾向と将来のインサイトを組み合わせて、サービスヘルスとパフォーマンスをさらに詳細に視覚化して把握できます。次のダッシュボードでは、重要な下位レベルのメトリクス(I/Oやデータベース接続など)を、Web サーバーへの異常なトラフィック、予測された API 要求トラフィック、データベースサーバーのディスク使用量の予測など、上位レベルのインサイトと比較して相関できます。
今日の予測が明日のインサイトになる
Datadog で予測機能が利用できるようになりました。ダッシュボードやアラートに予測機能を実装する方法の詳細については、Datadog のドキュメントを参照してください。予測機能と、異常値/外れ値の検出機能などの機械学習を利用する他の監視機能を組み合わせることで、メトリクスについてこれまで以上に有用なインサイトを獲得できます。Datadog のアカウントを取得されていないのでしたら、このリンクから無料トライアル版にサインアップいただけます。