導入事例：株式会社一休

株式会社一休

株式会社一休は1998年設立、上質なホテル・レストラン予約サイト「一休ドットコム」などを運営する企業。バリューとして掲げているのがユーザーファースト。施設の利用客を最優先に考えている。サイトが案内する施設を通じて「こころに贅沢」な時間を世に増やすことを目指している。

主な成果

問題対処を迅速化

プロダクト開発が責任をもって運用までおこなっている。インフラや外形監視でほぼリアルタイムで通知を受け、APMで問題解決とシームレスに対応ができるようになった。

デプロイが10倍以上に

2週間に1度だったデプロイを Datadog導入とともに自動化を進めた結果、1日数回へと大幅に頻度を上げられた。

Challenge

メトリクスやログなどあちこちに情報があり、障害が起きたときにどこに問題があるのか職人技で探さねばならなかった。<br>リリースのタイミングでパフォーマンスが落ち、サイトがタイム・アウトしてユーザーから見えないことがある。DB に対するクエリータイムアウトやそれ以外の再帰呼び出しの多発などいろいろなケースがある。以前だとクエリーが悪いのではないかとかロジックはどうかとコードレビューするなど試行錯誤が必要だった。

なぜDatadogなのか？

システムのクラウド移行に伴い、SaaS型で運用負荷が少ない監視ツールを探したところ、 Datadogが目についた。メトリクスが豊富で、ダッシュボードから必要な情報を一覧できて、Slackとの連携しやすいさなどが魅力だった。

ビジネスの都合でなく、お客様が欲しい情報をうまく出していきたい。常に期待に応えられるよう基盤が安定していることが大事。

メトリクスやログの情報が散在していて問題解決が迅速にできない

一休が運営する「一休.com」は厳選されたホテルやレストランの予約サイト。施設の事業者と利用客を仲介するB2B2C型のプラットフォームとなる。また、一休はトラベルWEBマガジン「一休コンシェルジュ」、プレミアムな店舗を紹介するグルメメディア「KIWAMINO」も運営。2007年からはYahoo!トラベルと本格提携が始まり、今では所属するZホールディングス全体に事業範囲を広げている。

Datadogを通じて監視するサーバーは300台以上。ほとんどがAWS EC2で、ごくわずかにオンプレの機器が混じる。なお一休では、プロダクト開発が運用も責任を持つような体制としているのが特徴だ。

一休.comでの宿泊予約サービス開始は2000年から。旅行のオンライン予約サイトとしては先駆けと言える。利用者数増加に応じて規模拡大を続けてきたが、クラウド移行してDatadogを導入する前までは、テレビで有名人がサイトで掲載しているホテルやレストランを話題にした途端、サイト負荷が急増してサイトごとダウンというような問題も経験してきた。

社内のインフラ監視では問題がなくてもユーザーが使えない状態が発生し早期に気づけないことが課題だった。

「システムの健全性を把握するために必要な情報(メトリクスやログ)が散在していたため、異常発生時には複数のツールにまたがり原因を探す必要があり、職人技と運が必要でした。また、リリースのタイミングでパフォーマンスが落ちることがあり、クエリーやロジックをレビューするなど試行錯誤していました」
株式会社一休
CISO 兼データサイエンス部部⻑兼CTO室エンジニア
植竹剛人氏

リリース後に起きる性能低下の原因究明と対処に

Datadogを導入すると、まずは本番環境全体におけるメトリクス監視から着手した。あらゆるインスタンスのメトリクスを単一の画面で確認できるだけではなく、社内の連絡手段となるSlackとの親和性が高いため、 Datadogは社内で普及していった。

植竹氏は「Datadog導入以来、エンジニアの共通認識としてDatadogのメトリクスを見るようになり、業務の一部として馴染んでいます」と言う。今では50〜60人のエンジニアがインフラのメトリクスを習慣的に見るようになっている。

異常のアラートはSlackチャンネルに集約し、必要なメンバーに通知している。例えばCPUの使用率がしきい値を超えたら、通知に直近のグラフを添付することもできて「分かりやすい」と評判だ。異常の通知があれば担当者がDatadogを見て解決するというフローが生まれている。

リリース後にパフォーマンス低下などで、ユーザーがサイトにアクセスできなくなることがある。原因はデータベースへのクエリータイムアウトや、再帰呼び出しの多発など、様々なケースがある。かつてはリリース後に不具合が起きると、クエリーやロジックに問題がないか確認するのに手間がかかっていた。しかしAPMを見れば、時間がかかっている場所が一目瞭然となるため、リリース後に起きた問題の原因究明が素早くできるようになった。植竹氏は「手慣れたエンジニアでなくても原因が分かり、『これなら切り戻したしたほうがいい』などと対処を判断できるケースが増えました」と話す。

Datadog導入で運用やデプロイも変化した。かつては運用専任者がいて、デプロイフローが自動化されていなかったため手動でデプロイしていた。差し戻しがあると、かなりの手間となっていた。後にGitHubやCircleCIなどの環境を整え、同時にDatadogのモニタリング活用で開発が運用にも責任を持つ体制へと変えることができたため、デプロイの効率化が進んだ。かつてデプロイは2週間に1度だったが、今では1日に数回の高頻度へと変化した。

サーバレスへの移行もDatadogで安心

導入から約6年。今ではDatadogは一休.comの状態監視、異常時の通知、外形監視、ログ基盤、異常検知、社内システムのネットワーク機器監視にも広げて活用している。

今後について植竹氏は「現在はサーバーレス(AWS Lambda)や Kubernetesへ徐々に移行しているところです。Datadogならコンテナにも簡単に導入できるので安心です。新しい環境にマッチしたモニタリングをきちんとしていきたいです」と話す。

また期待するところとして、植竹氏は異常検知の高度化を挙げる。イメージとしてはより賢いアノマリーだ。Watchdog機能から通常と異なる動きをフィード形式で確認できるため植竹氏は「今後使いこなしていきたい」と高い関心を持っている。

植竹氏は「一休としてはお客様に満足してもらえるように欲しい情報をもとにうまく出していきたい。常に期待に応えられるようスケールし、基盤が安定していることが大事です」と語る。

CASE STUDY

リアルタイムな統合モニタリングで、
エンドユーザーが気づく前に問題を解決