Datadogを活用しプロダクト開発チームによる 自律的なシステム運用を推進 | Datadog
Case study

Datadogを活用しプロダクト開発チームによる 自律的なシステム運用を推進

金融サービス

2,148名

東京都港区

会社情報 money forward

2012年に設立し、同年にお金の見える化サービス『マネーフォワード ME』をリリース。家計簿アプリおよび資産管理アプリとして高い認知度を誇り、サービス利用者数は1,500万人を突破している。法人向けのバックオフィスSaaSも多彩なサービスを揃え、オンラインでビジネスカードによる経費精算などの決済ができる「マネーフォワード Pay for Business」などを提供している。

プロダクト開発チーム自身が、プロダクト開発と並行しながら手間をかけることなく自律的にプロダクトの信頼性を確保できていることが、Datadogの導入によって得られた最大のメリットです。

case-studies/money-forward-headshot
中谷 貴人 氏
株式会社マネーフォワード
サービス基盤本部
Enabling SREグループ グループリーダー
case-studies/money-forward-headshot

プロダクト開発チーム自身が、プロダクト開発と並行しながら手間をかけることなく自律的にプロダクトの信頼性を確保できていることが、Datadogの導入によって得られた最大のメリットです。

中谷 貴人 氏
株式会社マネーフォワード
サービス基盤本部
Enabling SREグループ グループリーダー
なぜDatadogなのか?
  • 豊富な機能群、機能拡充のスピード
  • 利用開始の容易さ
  • ハイブリッド環境の一元管理
  • ユーザー数に依存せず、組織の拡大に柔軟に対応できる料金体系
Challenge
  • サービスの拡大によって発生したシステム運用負荷の軽減
  • 障害の原因追及や障害予見の属人化の解消
  • AWSとオンプレミスのハイブリッド環境でのシステム運用
  • マイクロサービス環境の監視
主な成果
100以上のマイクロサービス

50以上のプロダクトを構成する100以上のマイクロサービスをDatadogで監視

プロダクトの信頼性確保

プロダクト開発チームが自律的に監視設定や改善を実施

システム監視に関する運用の効率化

AWSなど各種サービスとのインテグレーションの利用、システム構築時の自動的な監視の開始を実現

OSSツールから統合監視ツールに切り替え プロダクト開発チームが自律的にシステム運用ができる環境へ

「お金を前へ。人生をもっと前へ。」 をミッションに、個人向け・法人向けの金融系Webサービス事業を展開しているマネーフォワード。現在、個人向けのお金の見える化サービス『マネーフォワード ME』をはじめ、法人・個人事業主向けのバックオフィスSaaS『マネーフォワード クラウド』、など50以上のプロダクトを提供している。

プロダクトを構成するシステムは、2012年の設立当初からオンプレミス環境で運用してきた。2017年頃からは新規システムをアマゾン ウェブ サービス(AWS)上に構築するようになり、2019年からは既存システムのAWS環境への移行を開始して、マイクロサービスアーキテクチャへの移行を進めている。現在もAWSへの移行は進行中で、オンプレミスとAWSのハイブリッドで運用中だ。

当初は、OSSのツールを利用してシステム監視を行ってきたが、障害の原因を探るためにはOSSのツールの利用方法の専門的な知識が必要なことや、メトリクスを分析し障害を予見するなどの高度な使い方が難しい、といった課題があった。そこで同社はより使い勝手の良いツールへの移行を検討した。サービス基盤本部 Enabling SREグループ グループリーダーの中谷貴人氏は「急スピードでプロダクトの数が増え、それを構成するマイクロサービス間の依存関係も複雑になり、システムの信頼性を担保するためのモニタリングの重要度は高まっていました。プロダクトの成長に合わせて、インフラエンジニアの数を増やすのは難しい状況でした。そこで、利用に必要な専門知識が少なくて済む統合監視ツールに切り替えて、プロダクト開発チームが自立的に運用できる環境を作ることにしました」と話す。

同社は複数のツールを比較した中からDatadogを採用し、2017年5月から利用を開始した。選定の決め手は、使い勝手の良さや柔軟性の高さにあった。

「Datadogは、使いたい時にすぐに機能が使える導入の容易さに加えて、新機能の開発スピードも早いと感じました。さらに、オンプレミスとAWSのハイブリッド環境でも両方を一元的に管理できることや、ユーザー単位での課金ではないため、多くのメンバーが使えることが導入の決め手になりました」(中谷氏)

写真左側:横山 達男 氏、右側:中谷 貴人 氏
写真左側:横山 達男 氏、右側:中谷 貴人 氏

情報を集約したDatadogのダッシュボードを作成
プロダクト開発チームが独自に監視

AWSへの移行とマイクロサービス化、Datadogの導入により、プロダクト開発チームによる自律的なシステム運用を実現するための土台を構築できた。現在、多くのプロダクト開発チームでは自律的にインフラを構築・運用し、プロダクト開発を行っている。とはいえ、すべてのチームがSREの支援なしで構築・運用できるわけではない。そこで、プロダクトによってはプロダクト専任のSREメンバーが在籍し、SREの技術領域をサポートしている。また、2022年1月には、サービス基盤本部内にEnabling SREグループを設け、全社横断的にプロダクト開発チームへのSREのプラクティスの浸透や全社横断のアプリケーション実行基盤の利用をサポートしている。

サービス基盤本部Enabling SREグループ テックリードの横山達男氏は「Datadogを見ることを習慣化してシステムの信頼性を意識する文化をチーム内に根付かせることも、私達のミッションのうちの1つです」と語る。

現在は、全社で100以上のマイクロサービスをDatadogで監視しており、プロダクト開発チームはDatadogの情報を集約したダッシュボード上でリソース状況、アプリケーションパフォーマンス、ログ、アラートなどを確認している。Datadog Syntheticsによる外形監視は各プロダクトごとに行い、PagerDutyやSlackと連携して障害発生時に即時通知する運用としている。

「チームによってDatadogの使いこなしの度合いに差はあるものの、多くのプロダクト開発メンバーが自律的にシステムの運用ができるようになりました。プロダクト開発メンバーの信頼性への意識はDatadogのお陰で確実に高まっています」(横山氏)

Datadog導入前はインフラチームが監視の設定や、機能を追加する必要があり、設定作業に時間を要することもあった。Datadogの導入によって監視の初期設定は自動化され、プロダクト開発チームは自律的に改善ができるようになった。

「プロダクト開発チーム自身が、プロダクト開発と並行しながら手間をかけることなく自律的にプロダクトの信頼性を確保できていることが、Datadogの導入によって得られた最大のメリットです」(中谷氏)

Datadogの導入で、システム監視に関する運用も全体的に効率化された。「全社横断のアプリケーション基盤上であれば、すでにDatadog Agentも導入済みなため、開発者は何も意識することなく監視を開始することができます。」(横山氏)

現在は、Enabling SREグループとしてDatadogを活用したSLI/SLOの策定推進や、プロダクト開発チームと連携したDatadogのダッシュボードを定期的に見る会の開催を行い、自主的にSREのプラクティスを実践できるようにサポートしている。Datadog APMを活用したパフォーマンス改善やトラブルシューティングなどにも、今後は積極的に取り組んでいく方針だ。

「Datadogの活用レベルを高めるためには、トレーニングの必要性も感じています。今後も、さまざまな機能を使いこなせるように継続してプロダクト開発チームを支援していきます」(横山氏)

Datadogの担当者とは2017年の導入以来、密接にコミュニケーションを取ってきたが、今後もさらなる支援に期待を寄せている。

「Datadogの担当者には、新しい機能やコスト面についても気軽に相談できますし、素早い回答をいただけるので助かっています。一方でカバー範囲が広く、使い勝手がいいサービスであるがゆえに、コスト最適化も課題となっていますので、引き続き密接に連携をとらせていただきたいと考えています」(中谷氏)

プロダクト開発チームの多くの開発メンバーが自律的にシステムの運用ができるようになりました。プロダクト開発メンバーの信頼性への意識はDatadogのおかげで確実に高まっています

横山 達男 氏

株式会社マネーフォワード サービス基盤本部
Enabling SREグループ テックリード

リソース