一休が運営する「一休.com」は厳選されたホテルやレストランの
予約サイト。施設の事業者と利用客を仲介するB2B2C型のプラッ
トフォームとなる。また、一休はトラベルWEBマガジン「一休コ
ンシェルジュ」、プレミアムな店舗を紹介するグルメメディア
「KIWAMINO」も運営。2007年からはYahoo!トラベルと本格提携
が始まり、今では所属するZホールディングス全体に事業範囲を広
げている。
Datadogを通じて監視するサーバーは300台以上。ほとんどがAWS
EC2で、ごくわずかにオンプレの機器が混じる。なお一休では、プ
ロダクト開発が運用も責任を持つような体制としているのが特徴だ。
一休.comでの宿泊予約サービス開始は2000年から。旅行のオンラ
イン予約サイトとしては先駆けと言える。利用者数増加に応じて規
模拡大を続けてきたが、クラウド移行してDatadogを導入する前ま
では、テレビで有名人がサイトで掲載しているホテルやレストラン
を話題にした途端、サイト負荷が急増してサイトごとダウンという
ような問題も経験してきた。
社内のインフラ監視では問題がなくてもユーザーが使えない状態が
発生し早期に気づけないことが課題だった。
「システムの健全性を把握するために必要な情報(メトリクスやログ)が散在していたため、異常発生時には複数のツールにまたがり原因を探す必要があり、職人技と運が必要でした。また、リリースのタイミングでパフォーマンスが落ちることがあり、クエリーやロジックをレビューするなど試行錯誤していました」
株式会社 一休
CISO 兼データサイエンス部 部⻑ 兼CTO室 エンジニア
植竹 剛人 氏
Datadogを導入すると、まずは本番環境全体におけるメトリクス監視から
着手した。あらゆるインスタンスのメトリクスを単一の画面で確認できる
だけではなく、社内の連絡手段となるSlackとの親和性が高いため、
Datadogは社内で普及していった。
植竹氏は「Datadog導入以来、エンジニアの共通認識としてDatadogのメ
トリクスを見るようになり、業務の一部として馴染んでいます」と言う。
今では50〜60人のエンジニアがインフラのメトリクスを習慣的に見るよう
になっている。
異常のアラートはSlackチャンネルに集約し、必要なメンバーに通知して
いる。例えばCPUの使用率がしきい値を超えたら、通知に直近のグラフを
添付することもできて「分かりやすい」と評判だ。異常の通知があれば担
当者がDatadogを見て解決するというフローが生まれている。
リリース後にパフォーマンス低下などで、ユーザーがサイトにアクセスで
きなくなることがある。原因はデータベースへのクエリータイムアウトや、
再帰呼び出しの多発など、様々なケースがある。かつてはリリース後に不
具合が起きると、クエリーやロジックに問題がないか確認するのに手間が
かかっていた。しかしAPMを見れば、時間がかかっている場所が一目瞭然
となるため、リリース後に起きた問題の原因究明が素早くできるようにな
った。植竹氏は「手慣れたエンジニアでなくても原因が分かり、『これな
ら切り戻したしたほうがいい』などと対処を判断できるケースが増えまし
た」と話す。
Datadog導入で運用やデプロイも変化した。かつては運用専任者がいて、
デプロイフローが自動化されていなかったため手動でデプロイしていた。
差し戻しがあると、かなりの手間となっていた。後にGitHubやCircleCIな
どの環境を整え、同時にDatadogのモニタリング活用で開発が運用にも責
任を持つ体制へと変えることができたため、デプロイの効率化が進んだ。
かつてデプロイは2週間に1度だったが、今では1日に数回の高頻度へと変
化した。
導入から約6年。今ではDatadogは一休.comの状態監視、異常時の通知、
外形監視、ログ基盤、異常検知、社内システムのネットワーク機器監視
にも広げて活用している。
今後について植竹氏は「現在はサーバーレス(AWS Lambda)や
Kubernetesへ徐々に移行しているところです。Datadogならコンテナに
も簡単に導入できるので安心です。新しい環境にマッチしたモニタリン
グをきちんとしていきたいです」と話す。
また期待するところとして、植竹氏は異常検知の高度化を挙げる。イメ
ージとしてはより賢いアノマリーだ。Watchdog機能から通常と異なる
動きをフィード形式で確認できるため植竹氏は「今後使いこなしていき
たい」と高い関心を持っている。
植竹氏は「一休としてはお客様に満足してもらえるように欲しい情報を
もとにうまく出していきたい。常に期待に応えられるようスケールし、
基盤が安定していることが大事です」と語る。