情報を集約したDatadogのダッシュボードを作成
プロダクト開発チームが独自に監視
AWSへの移行とマイクロサービス化、Datadogの導入により、プロダクト開発チームによる自律的なシステム運用を実現するための土台を構築できた。現在、多くのプロダクト開発チームでは自律的にインフラを構築・運用し、プロダクト開発を行っている。とはいえ、すべてのチームがSREの支援なしで構築・運用できるわけではない。そこで、プロダクトによってはプロダクト専任のSREメンバーが在籍し、SREの技術領域をサポートしている。また、2022年1月には、サービス基盤本部内にEnabling SREグループを設け、全社横断的にプロダクト開発チームへのSREのプラクティスの浸透や全社横断のアプリケーション実行基盤の利用をサポートしている。
サービス基盤本部Enabling SREグループ テックリードの横山達男氏は「Datadogを見ることを習慣化してシステムの信頼性を意識する文化をチーム内に根付かせることも、私達のミッションのうちの1つです」と語る。
現在は、全社で100以上のマイクロサービスをDatadogで監視しており、プロダクト開発チームはDatadogの情報を集約したダッシュボード上でリソース状況、アプリケーションパフォーマンス、ログ、アラートなどを確認している。Datadog Syntheticsによる外形監視は各プロダクトごとに行い、PagerDutyやSlackと連携して障害発生時に即時通知する運用としている。
「チームによってDatadogの使いこなしの度合いに差はあるものの、多くのプロダクト開発メンバーが自律的にシステムの運用ができるようになりました。プロダクト開発メンバーの信頼性への意識はDatadogのお陰で確実に高まっています」(横山氏)
Datadog導入前はインフラチームが監視の設定や、機能を追加する必要があり、設定作業に時間を要することもあった。Datadogの導入によって監視の初期設定は自動化され、プロダクト開発チームは自律的に改善ができるようになった。
「プロダクト開発チーム自身が、プロダクト開発と並行しながら手間をかけることなく自律的にプロダクトの信頼性を確保できていることが、Datadogの導入によって得られた最大のメリットです」(中谷氏)
Datadogの導入で、システム監視に関する運用も全体的に効率化された。「全社横断のアプリケーション基盤上であれば、すでにDatadog Agentも導入済みなため、開発者は何も意識することなく監視を開始することができます。」(横山氏)
現在は、Enabling SREグループとしてDatadogを活用したSLI/SLOの策定推進や、プロダクト開発チームと連携したDatadogのダッシュボードを定期的に見る会の開催を行い、自主的にSREのプラクティスを実践できるようにサポートしている。Datadog APMを活用したパフォーマンス改善やトラブルシューティングなどにも、今後は積極的に取り組んでいく方針だ。
「Datadogの活用レベルを高めるためには、トレーニングの必要性も感じています。今後も、さまざまな機能を使いこなせるように継続してプロダクト開発チームを支援していきます」(横山氏)
Datadogの担当者とは2017年の導入以来、密接にコミュニケーションを取ってきたが、今後もさらなる支援に期待を寄せている。
「Datadogの担当者には、新しい機能やコスト面についても気軽に相談できますし、素早い回答をいただけるので助かっています。一方でカバー範囲が広く、使い勝手がいいサービスであるがゆえに、コスト最適化も課題となっていますので、引き続き密接に連携をとらせていただきたいと考えています」(中谷氏)
プロダクト開発チームの多くの開発メンバーが自律的にシステムの運用ができるようになりました。プロダクト開発メンバーの信頼性への意識はDatadogのおかげで確実に高まっています
横山 達男 氏
株式会社マネーフォワード サービス基盤本部
Enabling SREグループ テックリード