基調講演
Workflow automation によるインシデント原因調査の自動化
Degicaが提供しているオンライン決済代行サービスKomojuは10000以上の国内外のEC事業者に対して約40種類のオンライン決済の手段を提供してきました。1分1秒のダウンタイムがクリティカルな問題となるFinTechの事業において、インシデント発生時の復旧時間を改善していくことは重要な課題です。みなさんはどのような方法でこの課題に取り組んでいるでしょうか?
このセッションでは、HTTP Status Codes 5xx のエラーレスポンスレート上昇という汎用的なアラートが発火するケースを題材とし、Workflow automation によりアラートに対して自動的に重要なコンテキストを付与することで、インシデント対応者が問題を迅速に解決する方法について共有します。その際に必要となる様々なカスタムメトリクスやログをどのように充実させたのか、またどのようにDatadog”への”データの取り込みとDatadog”から”のデータ取得を切り分けているのかの戦略についてもお話します。あなた自身のチームがインシデントからの復旧時間改善のために次に取れるアクションについて学ぶことができます。
情報
時間 2024-10-16 | 10:00
ROOM: The Air
スピーカー
伊藤 勝梧 様
シニア サイトリライアビリティ エンジニア, SRE
Degica
基調講演
Workflow automation によるインシデント原因調査の自動化
Degicaが提供しているオンライン決済代行サービスKomojuは10000以上の国内外のEC事業者に対して約40種類のオンライン決済の手段を提供してきました。1分1秒のダウンタイムがクリティカルな問題となるFinTechの事業において、インシデント発生時の復旧時間を改善していくことは重要な課題です。みなさんはどのような方法でこの課題に取り組んでいるでしょうか?
このセッションでは、HTTP Status Codes 5xx のエラーレスポンスレート上昇という汎用的なアラートが発火するケースを題材とし、Workflow automation によりアラートに対して自動的に重要なコンテキストを付与することで、インシデント対応者が問題を迅速に解決する方法について共有します。その際に必要となる様々なカスタムメトリクスやログをどのように充実させたのか、またどのようにDatadog”への”データの取り込みとDatadog”から”のデータ取得を切り分けているのかの戦略についてもお話します。あなた自身のチームがインシデントからの復旧時間改善のために次に取れるアクションについて学ぶことができます。