JCBでは、オンプレミスの既存システムではシステム改修に時間がかかり、ビジネスのスピード向上が課題であった。
そこでゼロベースで構築したクラウドネイティブなシステム基盤が、JCB Digital Enablement Platform(JDEP)だ。従来とは異なるルールとプロセスで設計と構築を行う。Google CloudにKubernetesとAnthos Service Meshをコアプロダクトとして構築、GitLabなどの外部サービスを積極活用するなかで、モニタリングにはDatadog を採用した。
Datadog導入で、インシデントの自動検知とAPMを利用してアプリケーションの詳細な情報を得られることで初動対応が改善できMTTDを短縮できた。
インシデントは自動検知でき、アラートレベルに応じて、通知方式を変えられる。クリティカルなものはオンコールで即時対応し、警告はチャットでの通知で即日対応といったレベルづけをするなどのチューニングを続けている。
このインシデント関連の導入効果は特に夜間のオンコール対応と初動調査対応の迅速化に貢献している。クリティカルな事象は自動アラートでオンコールSREが対応する。初動調査でもDatadogのAPMなどを利用することで自分たちのリクエストの詳細を見られ、チームメンバーとの連携も容易になることで対応がしやすくなった。
成果があがったことでSREチームは、共通プラットフォーム担当とアプリケーションチーム連携の担当の2チーム体制に拡大し、変更リードタイム短縮、デプロイ頻度向上、平均修復時間(MTTR)短縮、変更失敗率の低減などに取り組んでいる。
「インテグレーションの数が多く、新しい環境に対しても対応が早く導入が簡単であることが決め手になりました。また、統合ツールであるため管理ポイントを減らし、運用工数を削減できることもDatadogを選択した理由です。」
株式会社ジェーシービー
デジタルソリューション開発部 DXテックグループ主査
平松 淳也 氏
「Datadogはユーザーインタフェース(UI)が分かりやすいため開発者でないユーザーでも低い学習コストではじめられます。プラットフォーム部門とSRE部門だけでなく、アプリケーション開発部門、ビジネス部門にもスムーズに広がりました。」とJCBのデジタルソリューション開発部 の平松氏は語る。サービスの挙動に対するチームをまたがる共通の基準としてサービスレベル指標(SLI)とサービスレベル目標(SLO)を定め、DatadogのSLOテンプレートを活用してダッシュボードを作り、どの程度のエラーが許容範囲にあるのか、インフラ、アプリ、ビジネスと部門をまたがった共通認識を作ることに役立っている。
Datadogはインテグレーションの数が多く、新しい開発言語やクラウドサービスなどに対しても対応が早く導入が簡単であることもメリットだ。また、統合ツールであるためエージェントを重複してインストールする必要もなく、管理ポイントを減らして、運用工数を削減できることもメリットとなる。また、Datadogは、Infrastructure as a Code(IaC)化が容易なことも大きい。
今後はWatchdogやアノマリー検知などの機械学習機能をさらに活用することで運用の効率化を目指している。また、外形監視も試しており、外部からアクセスした時の可用性がモニタリングできることを期待している。
「運用の効率化という点でDatadogはIaC化が容易なことが大きい。Datadogの設定をGitLabに保存してDatadogにデプロイすることで同じようなモニターを作成し、環境変数を使って他用途でも横展開しやすい。また操作ミスをしても戻しやすいことが運用工数の削減につながっている」
株式会社ジェーシービー
デジタルソリューション開発部 DX テックグループ主査
笹野 真平 氏