Workflow automation によるインシデント原因調査の自動化 | Datadog

前へ

基調講演

Workflow automation によるインシデント原因調査の自動化

Degicaが提供しているオンライン決済代行サービスKomojuは10000以上の国内外のEC事業者に対して約40種類のオンライン決済の手段を提供してきました。1分1秒のダウンタイムがクリティカルな問題となるFinTechの事業において、インシデント発生時の復旧時間を改善していくことは重要な課題です。みなさんはどのような方法でこの課題に取り組んでいるでしょうか?

このセッションでは、HTTP Status Codes 5xx のエラーレスポンスレート上昇という汎用的なアラートが発火するケースを題材とし、Workflow automation によりアラートに対して自動的に重要なコンテキストを付与することで、インシデント対応者が問題を迅速に解決する方法について共有します。その際に必要となる様々なカスタムメトリクスやログをどのように充実させたのか、またどのようにDatadog”への”データの取り込みとDatadog”から”のデータ取得を切り分けているのかの戦略についてもお話します。あなた自身のチームがインシデントからの復旧時間改善のために次に取れるアクションについて学ぶことができます。

情報

時間 2024-10-16 | 10:00

ROOM: The Air

スピーカー

tokyo-summit/speakers/shogo_ito
伊藤 勝梧 様

シニア サイトリライアビリティ エンジニア, SRE

Degica

基調講演

Workflow automation によるインシデント原因調査の自動化

Degicaが提供しているオンライン決済代行サービスKomojuは10000以上の国内外のEC事業者に対して約40種類のオンライン決済の手段を提供してきました。1分1秒のダウンタイムがクリティカルな問題となるFinTechの事業において、インシデント発生時の復旧時間を改善していくことは重要な課題です。みなさんはどのような方法でこの課題に取り組んでいるでしょうか?

このセッションでは、HTTP Status Codes 5xx のエラーレスポンスレート上昇という汎用的なアラートが発火するケースを題材とし、Workflow automation によりアラートに対して自動的に重要なコンテキストを付与することで、インシデント対応者が問題を迅速に解決する方法について共有します。その際に必要となる様々なカスタムメトリクスやログをどのように充実させたのか、またどのようにDatadog”への”データの取り込みとDatadog”から”のデータ取得を切り分けているのかの戦略についてもお話します。あなた自身のチームがインシデントからの復旧時間改善のために次に取れるアクションについて学ぶことができます。

Save Your Spot Today

Datadog Summit Tokyo