複数の就職向けサービスを統合的に監視し障害原因と性能ボトルネックの早期特定を実現 | Datadog
Case study

複数の就職向けサービスを統合的に監視し障害原因と性能ボトルネックの早期特定を実現

情報・通信

155名

東京都渋谷区

会社情報 One Career

「人の数だけ、キャリアをつくる。」をミッションに、新卒採用メディア「ONE CAREER」、中途採用メディア「ONE CAREER PLUS」、人事向け採用クラウド「ONE CAREER CLOUD」、ITエンジニア就活に特化した就活メディア「ONE CAREER for Engineer」の4つのサービスを展開。これまで可視化されていなかった「キャリアデータ」を活用し、就職・採用の意思決定をサポートする。

「SREの民主化」に向けて、Datadogは不可欠なツールです。オブザーバリティの向上を、運用体制とプラットフォームの両面で強化していくために、Datadogの各種機能を活用しながら、安定したサービスを目指していきます。

case-studies/miyagawa
宮川 倫瑠 氏
株式会社ワンキャリア
技術開発部 SREマネージャー
case-studies/miyagawa

「SREの民主化」に向けて、Datadogは不可欠なツールです。オブザーバリティの向上を、運用体制とプラットフォームの両面で強化していくために、Datadogの各種機能を活用しながら、安定したサービスを目指していきます。

宮川 倫瑠 氏
株式会社ワンキャリア
技術開発部 SREマネージャー
なぜDatadogなのか?
  • 利用者数に依存しない使用量課金体系
  • ダッシュボードの視認性の高さ
  • 直感的でわかりやすいUI/UX
Challenge

  • オブザーバリティの強化
  • パフォーマンスの計測・改善
  • 運用コストの削減

主な成果
3時間→1時間以内

障害原因の早期特定による復旧時間の短縮(従来比約1/3)

約10秒→約1秒

アプリケーションパフォーマンス改善によるAPIレイテンシの短縮時間(従来比約1/10)

約20万円/月→約3,000円/月

SLO(サービスレベル目標)の社内への浸透

複数サービスの信頼性担保に向けてDashboardでオブザーバリティを強化

2015年に新卒採用メディア「ONE CAREER」の運営からスタートしたワンキャリアは、人事向け採用クラウド「ONE CAREER CLOUD」、中途採用メディア「ONE CAREER PLUS」、学生エンジニア向け就活サイト「ONE CAREER for Engineer」と順次サービスを拡大してきた。サービスのプラットフォームにはアマゾン ウェブ サービス(AWS)とGoogle Cloudを採用し、マルチクラウドで運用している。短期間でサービスが増加し、利用者数が急増する中で課題になったのは、分散されたシステムやアプリケーションの並行監視と、サービスの信頼性担保だった。

課題解決には、オブザーバリティの強化、パフォーマンスの計測・改善、運用コストの削減の3つが必要と考えた同社だったが、これまではインフラ監視はAmazon CloudWatch、エラー監視はGrafanaなどと複数のツールを使い分けていたために定常的な監視ができず、障害発生時の対応に手間取ることがあった。そこで同社は複数サービスを横断して監視ができる統合監視ツールの導入を検討。技術開発部 SREマネージャーの宮川倫瑠氏は「最大の課題は、障害発生時の原因特定や、アプリケーションの性能ボトルネックの特定に時間がかかることでした。そこで原因追及の時間を短縮するためにAPM(アプリケーションパフォーマンス監視)の導入を考えました」と語る。

将来的にマイクロサービスに移行し、アジャイル開発を進めていくためにも複数サービスを監視する基盤が必要と考えた同社は、数ある統合監視ツールの中からDatadogを採用した。決め手は、“SREの民主化”を見据えた使用量課金体系にあった。

「現在、少人数のSREが複数プロダクトの監視やアラートに対応していますが、SLO(サービスレベル目標)を監視するとなると、SREだけでなくプロダクトチームやビジネスサイドとも連携する必要があります。そのためにもユーザー課金型ではなく、誰でもオープンに利用できるDatadogの使用量課金体系が私たちの目的に合っていました」(宮川氏)

写真左側:宮川 倫瑠 氏、右側:渡邉 美希 パウラ 氏
写真左側:宮川 倫瑠 氏、右側:渡邉 美希 パウラ 氏

Datadog の利用者を拡大してSREを民主化しプロダクトチーム主導による監視対応の実現へ

Datadogの導入は2022年6月から着手し、同年7月よりInfrastructure MonitoringとAPMの利用を開始。その後、Synthetic Monitoring(外形監視)やReal User Monitoring(RUM)などの機能を追加していった。技術開発部 SREの渡邉美希パウラ氏は「Datadogから提供されるドキュメントがわかりやすく、アプリケーションやエージェントの導入や、チューニングなどがスムーズに進みました。初期導入後のブラウザテストやSyntheticテストの追加検討時には、Datadogの担当者からトライアルの提供など手厚いサポートいただき、採用の意思決定に役立ちました。運用開始後の技術的な問い合わせに対しても丁寧な対応で早期の課題解決につながっています」と語る。

Datadogの導入効果は早々に現れ、課題であった障害原因の特定時間が大幅に短縮された。

「Datadog APMを用いて複数メトリックスの相関を確認したり、スロークエリログを分析したりを通じて早期の異常検知が可能になり、障害復旧までの時間を1時間以内に収めることができました。これは2022年にONE CAREERで発生した約3時間の障害と比較して、約3分の1に短縮できたことになります」(宮川氏)

アプリケーション性能に関しても、Datadog APMにより各トランザクションのパフォーマンスが詳細に可視化されるようになった。実際に約10秒のレスポンスタイムが発生していたAPIを発見してボトルネックを改善してみたところ、10分の1の約1秒まで短縮された。

社内のSLO監視運用については、これまでAmazon CloudWatchやGrafanaでSLOダッシュボードを作成していたが、操作が難しいためにSRE以外のメンバーには利用が浸透せず、さらにエラーバジェットが可視化できていない課題があった。そこで、Datadog SLO DashboardでSLOやエラーバジェットの状況を定常的にSlackに通知できるようにした。これにより、ChatOpsによるSLO監視の自動化と、期間別のエラーバジェット管理が実現している。

「現在、Datadog SLO Dashboardはプロダクトチームに展開して運用を始めています。これにより、プロダクトチームにおいてもSLOに対する意識を持ちながらサービスを開発する土壌を作ることができました」(渡邉氏)

その他、潜在的な異常が検知できないという課題に対しては、DatadogのWatchdogを活用して例外的なアラートをキャッチすることで、異常なパフォーマンスの早期検知と対応が可能になった。さらに、Datadog Browser Testsへの移行によりE2Eテストのコストを98%削減した。

このようにさまざまな成果を収めているワンキャリアだが、今後についてはSREが複数のプロダクトの監視やアラートに対応している状況を、事業部門やプロダクトチーム主導で自立的に対応する体制に改め、“SREの民主化”を本格的に進めていく。その他、Datadogの機能拡張として、分散したシステムのログの一元管理に向けてDatadog Log Managementを導入し、複数サービスのAPMとログの相関をDatadog上で可視化・分析することを目指す。さらにDatadog RUMで各種サービス利用者の行動や、画面の描画速度、ネットワークレイテンシなどの体験指標の可視化・分析しながら、サービス改善やUXの向上に取り組んでいく考えだ。

「オブザーバリティの向上を、運用体制とプラットフォームの両面で強化していくためにもDatadogは不可欠なツールです。引き続き各種機能を活用しながら、障害のない安定したサービスを目指していきます」(宮川氏)

「Datadog SLO Dashboardの導入により、社内にSLO監視の運用が浸透し、プロダクトチームにおいてもSLOに対する意識を持ちながらサービスを開発することが可能になりました」

渡邉 美希 パウラ 氏
株式会社ワンキャリア
技術開発部 SRE

リソース