あなたの新しい DevOps のコパイロット、Bits AI のご紹介 | Datadog

あなたの新しい DevOps のコパイロット、Bits AI のご紹介

Author Thomas Sobolik
Author Kai Xin Tai

Published: 8月 3, 2023

ビジネス上重要なインフラストラクチャーやサービスは、多くの異なるソースから大量の観測可能性データを生成します。このようなデータをすべて統合して、 特にインシデント対応の最中に、 問題の検出と改善のための実用的な洞察を得ることは困難です。そのため Datadog は、Datadog の Web アプリ、モバイルアプリ、Slack で、コンテキストを切り替えることなく、より効率的にインシデントの調査と対応を行うことができる、AI を搭載した生成型の DevOps コパイロットである Bits AI を構築しました。

Bits AI は、Watchdog が検出したログやトレースの異常検出、メトリクス、イベント、実ユーザートランザクション、セキュリティシグナル、クラウドコストなど、Datadog プラットフォーム全体から主要なデータを検索して相関させることで、環境全体から洞察を浮かび上がらせる、単一の会話型インターフェイスを提供します。Bits AI は、自動化されたコード修正の提案、Synthetic テストの作成、関連する Datadog ワークフローのトリガーを見つけることによって、問題解決を支援することもできます。

この投稿では、Bits AI がどのようにあなたのお役に立てるかを説明します。

環境で何が起きているかを調べる

本番環境で問題を検出した場合、その問題を迅速にトリアージして調査することは困難です。Bits AI を使えば、ツールやコンテキストを切り替えることなく、会話型言語を使って最も関心のある質問に対する答えをすばやく見つけることができます。

例えば、夜中に event-processor と呼ばれるサービスに対する一連のアラート発生について呼び出されたとしましょう。あなたは Datadog モバイルアプリを開き、ベッドから起きてサインオンする前に、Bits AI に問題の評価を依頼することができます。これをインシデントにエスカレーションすべきかどうかを理解するために、event-processor の問題によって他の依存関係が影響を受けているかどうかをチェックします。次のスクリーンショットは、どの依存関係をチェックするかを指定することなく、Bits AI にこれらの相関関係を見つけるよう指示する方法を示しています。Bits AI はまた、Deployment Tracking からの欠陥のあるデプロイメント、Watchdog からのログやトレースの異常検出、セキュリティシグナルなどの重要な洞察を表示することもできます。このケースでは、Bits AI は event-processor のエラー率の増加に対応する event-intake と呼ばれるアップストリームサービスで発生している複数の進行中の問題について通知します。また、event-intake ですでに進行中のインシデントがあり、それが event-processor に広がっている可能性があることもわかります。

Datadog モバイルアプリの Bits AI を使って、サインオン前に問題を調査することができます。

この時点で、環境にチームの注意を必要とする深い問題があることが確認できました。Slack にサインオンし、チームのチャンネルで直接 Bits AI とコミュニケーションを続けることができます。また、Bits AI にダッシュボードや Confluence ページを含む社内ドキュメントのようなアセットのプルアップを依頼し、チームが有用なリソースを手動で探すことなくアクセスできるようにすることもできます。例えば、Bits AI に「event-processor のサービス健全性ダッシュボードを探して」と依頼したり、「Kubernetes に関するダッシュボードを探して」と依頼して、event-processor のエラーの根本原因を示す可能性のあるインフラストラクチャーの健全性やパフォーマンスデータを引き出すことができます。

より深い調査のためのデータクエリ

問題を検出して診断した後は、観測可能性データをさらに深く掘り下げて根本原因を突き止め、改善策を導き出す必要があります。Bits AI の自然言語クエリは、会話形式のプロンプトを使用して、関連するメトリクス、トレース、ログ、セキュリティ、インフラストラクチャー、クラウドのコスト データをすべて 1 か所から発見できるため、調査を迅速化し、MTTR を短縮するのに役立ちます。Bits AI は、組織がサービスやインフラストラクチャーにどのようにタグ付けしているかを理解し、プロンプトをすべてのデータをクエリするための正しい構文に翻訳します。これにより、たとえ関連するサービスに関する深い知識がなくても、組織内の誰もが重要な情報を簡単に収集できるようになります。Bits AI のチャットウィンドウには、Datadog の Web アプリのどこからでもアクセスでき、ログ管理や APM など、Datadog の主要製品のホストで自然言語クエリを送信することもできます。

例えば、event-processor サービスが高い平均リクエストレイテンシーに関連するアラートをトリガーしたとします。あなたは Bits AI に、「event-processor から 1 秒より遅いトレースを表示して」と要求することができます。Bits AI はクエリされたトレースのリストをレポートするので、フレームグラフに素早くドリルダウンして、どのスパンがボトルネックを含んでいるかを把握することができます。

Datadog Web UI のどこからでも、Bits AI を使用して APM トレースをクエリできます。

アップストリームの event-intake サービスへのリクエストが大きなレイテンシーのボトルネックを引き起こしていることがトレースからわかった場合、「過去 3 時間に event-intake が起こしたエラーは何件?」や 「昨日の午前 9 時からの event-intake の平均リクエストレイテンシーはどれくらい?」 といった質問をすることで、問題における依存関係の潜在的な役割を調査することができます。Bits AI はまた、会話の過程で提供された情報に基づいて、有用なフォローアップの質問を提案します。例えば、Bits AI は、event-intake サービスについて検出された他の問題について尋ねることを提案して、これにより event-intake に影響を与える進行中の Watchdog アラートが明らかになる場合があります。

インシデントの対応と修復の合理化

インシデント対応では、関係者が最新の情報と状況に素早くアクセスできるよう、プロセスを効率的に追跡・管理することが不可欠です。しかし、この作業の管理オーバーヘッドは、面倒で大量のリソースが必要になる場合があります。生成型 AI を活用することで、Datadog がこのような重要なタスクの多くを自動的に実行できるようになったので、お客様はアプリやインフラストラクチャーの複雑な問題に取り組むことに集中できます。Bits AI に依頼できることは、以下の通りです。

  • Datadog Incident Management でインシデントを宣言する
  • PagerDuty 経由でオンコールチームメンバーに通知する
  • インシデントの重大度を更新する
  • インシデント概要を提供する

インシデントは急速に進行することが多く、全員が情報を共有することは困難です。Bits AI は、インシデント対応の Slack チャンネルにシームレスに統合されるため、問題を特定し、そのスコープを決定し、根本原因の分析を開始するために必要な詳細を簡単にチームに提供できます。新しい対応者がインシデント対応 Slack チャンネルに参加すると、Bits AI は自動的に、チャンネルで発生したすべてのサマリーを提供します。また、必要に応じて新しいサマリーをリクエストしたり、設定した周期でサマリーを定期的に投稿するように Bits AI を構成することもできます。

インシデント対応に参加する新しい対応者に、Bits AI を使ってインシデントのサマリーを提供することができます。

インシデント対応者が修復を実施できるように、Bits AI は Confluence のランブックやトレーニングガイドなどの重要なアセットを表示することができます。Bits AI は、問題を自動的に修正するための Datadog ワークフローを提案することもできます。例えば、DDoS 攻撃によって event-intake サービスが応答不能になったことを発見した場合、Bits AI と対話することで、event-intake にリクエストを殺到させている IP をブロックするワークフローを開始することができます。

Bits AI を使用すれば、関連するワークフローをすばやく見つけてトリガーし、問題を修復することができます。

Bits AI は、インシデント対応者が問題を調査して修正するのを支援するだけでなく、開発者が問題の原因となったコードエラーを発見して修正するのを支援することもできます。例えば、event-processor サービスが実行する Python スクリプトで、大量の NoneType エラーに対するエラー追跡の問題があるとします。

Datadog は、エラーの発生したコード行を指し示し、エラーの明確な説明を提供します。また、APM から収集した実行コンテキスト (変数名やその他の状態情報、エラーに関連する追加のソースコードなど) を分析し、AI が生成したテストケースと IDE でデプロイ可能な修正プログラムを提供します。この機能により、手動でエラーを再現する時間を節約し、解決策を見つけることができるため、アプリケーションのより複雑な問題への対処に集中することができます。

Datadog Error Tracking は、自動化されたコード修正提案を提供し、自動的にユニットテストを生成します。

問題の再発防止

インシデントが解決されると、Bits AI は、インシデント Slack チャンネルでのチームの会話とインシデント管理のタイムラインに基づいて、事後分析の最初のドラフトを書くサポートをします。生成される事後分析には以下が含まれます。

  • インシデント発生時のシステム状態の概要
  • インシデントによる顧客への影響
  • 取られた修復措置

対応者は、ドキュメントを完成させる前に、生成された事後分析を繰り返し行うことができます。

Bits AI は、自動的に事後分析のドラフトを作成することで、インシデントをまとめるサポートをします。

将来のインシデントに対するチームの態勢をさらに強化するために、Bits AI を活用して、発見した問題をチェックする Synthetic テストを作成することもできます。テキストプロンプトを記述することで、単一のエンドポイントに ping を送信する API テストや、ユーザーアクションを段階的に実行するブラウザテストを簡単にスピンアップできます。これらのテストは、サービスやエンドポイントの可用性、主要なユーザージャーニーのパフォーマンスをプロアクティブに検証するのに役立ちます。例えば、Bits AI に「shopist.io の可用性をテストし、ユーザーが正常にログインできるかどうかをチェックするためのテストを作成するのを手伝ってほしい」と依頼することができます。Datadog は、その URL に ping を送信し、ログインプロセスを踏むブラウザテストを作成することで対応します。例えば、希望するページロード速度に対するアサーションを追加するなど、必要に応じてこのテストをさらにカスタマイズすることができます。

Bits AI は、プロンプトに基づいて Synthetic テストを作成することができます。

Bits AI は、RUM パフォーマンスの分析に基づいて、これらのテストを自動的に提案することもできます。例えば、「アプリで最も人気のあるユーザージャーニーをカバーするために、どのような Synthetic テストを作成すべきか」と質問することができます。Bits AI は、ユーザーエクスペリエンスの積極的な改善に役立つテストをインテリジェントに提案し、オプションで作成してくれます。チームがインシデントから得た洞察に基づいてテストのフットプリントを拡大することで、将来のインシデントの可能性を減らし、次のインシデントに備えることができます。

Bits AI は、プロンプトに基づいて Synthetic テストを提案することができます。

モニタリングのワークフローをパワーアップ

Datadog は、生成型 AI の力で、自然言語プロンプトを使用して、観測可能性データからインテリジェントな洞察を導き出し、テストや事後分析などの重要なアセットを生成し、インシデントの対応と修復を合理化します。この新しいテクノロジーは、組織内のすべての人が観測可能性データをより効果的に活用し、調査中のコンテキストの切り替えを減らすのに役立ちます。Bits AI をインシデント対応ワークフローに統合することで、組織のモニタリングデータに関する経験や知識のレベルに関係なく、異なる利害関係者がより効果的に協力して問題を迅速に解決し、インシデントのスコープを限定できるようになります。

この新しいテクノロジーは、現在非公開ベータ版としてご利用いただけます。アクセスをご希望の方は、このフォームにご記入ください。Datadog を初めてご利用になる場合は、にご登録ください。