Datadog の利用者を拡大してSREを民主化しプロダクトチーム主導による監視対応の実現へ
Datadogの導入は2022年6月から着手し、同年7月よりInfrastructure MonitoringとAPMの利用を開始。その後、Synthetic Monitoring(外形監視)やReal User Monitoring(RUM)などの機能を追加していった。技術開発部 SREの渡邉美希パウラ氏は「Datadogから提供されるドキュメントがわかりやすく、アプリケーションやエージェントの導入や、チューニングなどがスムーズに進みました。初期導入後のブラウザテストやSyntheticテストの追加検討時には、Datadogの担当者からトライアルの提供など手厚いサポートいただき、採用の意思決定に役立ちました。運用開始後の技術的な問い合わせに対しても丁寧な対応で早期の課題解決につながっています」と語る。
Datadogの導入効果は早々に現れ、課題であった障害原因の特定時間が大幅に短縮された。
「Datadog APMを用いて複数メトリックスの相関を確認したり、スロークエリログを分析したりを通じて早期の異常検知が可能になり、障害復旧までの時間を1時間以内に収めることができました。これは2022年にONE CAREERで発生した約3時間の障害と比較して、約3分の1に短縮できたことになります」(宮川氏)
アプリケーション性能に関しても、Datadog APMにより各トランザクションのパフォーマンスが詳細に可視化されるようになった。実際に約10秒のレスポンスタイムが発生していたAPIを発見してボトルネックを改善してみたところ、10分の1の約1秒まで短縮された。
社内のSLO監視運用については、これまでAmazon CloudWatchやGrafanaでSLOダッシュボードを作成していたが、操作が難しいためにSRE以外のメンバーには利用が浸透せず、さらにエラーバジェットが可視化できていない課題があった。そこで、Datadog SLO DashboardでSLOやエラーバジェットの状況を定常的にSlackに通知できるようにした。これにより、ChatOpsによるSLO監視の自動化と、期間別のエラーバジェット管理が実現している。
「現在、Datadog SLO Dashboardはプロダクトチームに展開して運用を始めています。これにより、プロダクトチームにおいてもSLOに対する意識を持ちながらサービスを開発する土壌を作ることができました」(渡邉氏)
その他、潜在的な異常が検知できないという課題に対しては、DatadogのWatchdogを活用して例外的なアラートをキャッチすることで、異常なパフォーマンスの早期検知と対応が可能になった。さらに、Datadog Browser Testsへの移行によりE2Eテストのコストを98%削減した。
このようにさまざまな成果を収めているワンキャリアだが、今後についてはSREが複数のプロダクトの監視やアラートに対応している状況を、事業部門やプロダクトチーム主導で自立的に対応する体制に改め、“SREの民主化”を本格的に進めていく。その他、Datadogの機能拡張として、分散したシステムのログの一元管理に向けてDatadog Log Managementを導入し、複数サービスのAPMとログの相関をDatadog上で可視化・分析することを目指す。さらにDatadog RUMで各種サービス利用者の行動や、画面の描画速度、ネットワークレイテンシなどの体験指標の可視化・分析しながら、サービス改善やUXの向上に取り組んでいく考えだ。
「オブザーバリティの向上を、運用体制とプラットフォームの両面で強化していくためにもDatadogは不可欠なツールです。引き続き各種機能を活用しながら、障害のない安定したサービスを目指していきます」(宮川氏)
「Datadog SLO Dashboardの導入により、社内にSLO監視の運用が浸透し、プロダクトチームにおいてもSLOに対する意識を持ちながらサービスを開発することが可能になりました」
渡邉 美希 パウラ 氏
株式会社ワンキャリア
技術開発部 SRE