導入事例:株式会社プレイド | Datadog
CASE STUDY

マルチテナント、低レイテンシー/高負荷、大規模システム、マルチクラウドのCXプラットフォーム「KARTE」を支えるDatadog

株式会社プレイド

「データによって人の価値を最大化する」をミッションに2011年に設立。2015年にリリースしたCX(顧客体験)プラットフォーム「KARTE(カルテ)」とそこに集まる「1st Party Customer Data」を中心に、さまざまなプロダクト、ソリューション、プロフェッショナルサービスを展開している。2020年12月、東京証券取引所マザーズ(現、グロース)に上場。


主な成果

サービスの安定化に貢献

リアルタイム性が求められるサービスだけに、インフラの安定性や、障害検知から復旧までのスピードが求められる。Datadogの活用により早期にエラーや障害を検知して、サービスの安定性を向上させる取り組みを行うことができた。

エンジニア全員が活用することによるサービス品質の向上

アプリケーションエンジニアを含めた全員がDatadogを活用し、エラーの状況を把握することで、自ら開発したコードの問題に自発的に気付くことができ、各自が学習サイクルを回すことで、アプリケーションのクオリティ向上につながっている。

課題

マルチテナント、低レイテンシー/高負荷、大規模システム、マルチクラウドが特徴のCXプラットフォーム「KARTE」を多くの顧客に提供するうえで、サービスの安定性や、障害検知から復帰までのスピードが重要で、リアルタイム性の高い監視サービスが必要だった。


なぜDatadogなのか?

エラーや障害をいち早く検知して対応し、素早く修正を反映させて確認することができるリアルタイム性、多彩なメトリクスを駆使して多角的かつ一元的に分析ができる柔軟性、突発的なスパイクアクセスの際もレスポンスを低下させることなく利用できるスケーラビリティ、長年利用していても大規模な障害を発生させたことがない安定性の4点を評価した。


CXプラットフォームに求められるリアルタイム性と安定性

プレイドの主力サービスである「KARTE(カルテ)」は、Webサイトやアプリを利用する顧客の行動をリアルタイムに解析して可視化し、個々のユーザーにあわせた自由なコミュニケーションをワンストップで実現するCX(顧客体験)プラットフォームだ。高い拡張性を備え、さまざまなシーンでのマーケティング課題やニーズに応じて活用できる。Webサイトやアプリの規模に応じて課金するサブスクリプションモデル(年間契約)を採用し、顧客社数は2023年2月時点で614社を数える。

KARTEは、マルチテナント型のSaaSとして2015年3月より提供を開始した。多様な業界が採用しているため顧客のアクセスパターンは複雑で、1日の中でも最大と最小で2倍近い負荷の差がある。EC事業者が多いユーザー特性もあり、セールやイベントで突発的に通常の数倍から10倍以上の負荷がかかるスパイクアクセスが発生することもある。そのため、インフラには安定性が求められ、柔軟にスケールさせながらレイテンシーの低いサービスを提供することがミッションとなっている。CTOの牧野祐己氏は「KARTEでは、サイト訪問者やアプリ利用者の行動を分析し、瞬時にポップアップを表示したり、プッシュ通知を出したりします。そのため、1秒以内で分析してアクションを起こすといったリアルタイム性が求められます。また、金融機関等のお客様も多いことから、サービスを止めない安定性も重要です」と語る。

ありとあらゆるメトリクスがあり多角的に分析ができるDatadogの柔軟性を評価

マルチテナント、低レイテンシー/高負荷、大規模システム、マルチクラウドが特徴のKARTEを支える監視ツールとして、同社が採用したのはDatadogだ。創業当時はOSSの監視ツールを利用してきたが、KARTEをリリースする1ヵ月前の2015年2月にDatadogを導入し、以来8年以上にわたって利用している。Datadogを採用した理由のひとつがリアルタイム性だ。安定性を重視するKARTEでは、エラーや障害をいち早く検知して対応し、素早く修正を反映させて確認しなければならない。その点、リアルタイムに検知できるDatadogのメリットは大きい。また、ありとあらゆるメトリクスがあり、多角的に分析ができる柔軟性を評価した。

「弊社では単一のクラウドサービスだけではなく、Google Cloud PlatformとAmazon Web Servicesを始めとしたクラウドサービスを適材適所で使っています。複雑性の高いサービス構成に対して、Datadogはさまざまな観点から障害監視やモニタリングを1カ所に集約することができ、リアルタイムに状況が把握できる点に関してメリットを感じています」

株式会社プレイド
CTO
牧野 祐己 氏

カスタムメトリクスの積極活用による自動検知監視だけでなくRDBMSのオートスケールにも活用

現在、プレイドがDatadogを利用している用途は、カスタムメトリクスを用いたインスタンス監視と自動アラート、ログの取得、アプリケーション監視、Datadog Cloud SIEMによる脅威検知などだ。当初はインスタンス監視を中心に行っていたが、新サービスの登場にあわせて利用範囲を拡大していった。

特に障害時にいち早く通知する自動アラートは、KARTEの安定運用に欠かせないツールとなっている。また、マルチテナントSaaSとして多くのユーザーがアクセスするサービスだけに、SIEMによるリアルタイムの不正ログインの検知も欠かせない。牧野氏は「エラー・障害検知を始めとして、モニタリングを強化することで、安定的にデプロイサイクルを高める取り組みをしています」と話す。

すべてのエンジニアがDatadogを使って障害対応を行っていることも同社の特徴だ。同社ではインフラ担当のエンジニアだけでなく、アプリケーション開発のエンジニアも含めて約50名が、それぞれの用途でDatadogを利用している。プラットフォーム周りで解析基盤の開発を担当するエンジニアの中間亮彬氏は「解析基盤では、主にカスタムメトリクスを使って、多様な監視軸で自動検知を行っています。最近は監視に使うだけでなく、CPUの負荷上昇時にGCPのマネージドRDBMS(Cloud Spanner)を、Datadogのモニター機能を使ってGCPのイベント管理機能(Eventarc)経由でCloud Run(コンテナのデプロイ)のコマンドを実行し、オートスケールする用途でも活用しています」と語る。

プロダクト開発に注力することでデプロイの頻度の向上へ

このように、KARTEのサービス提供においてDatadogは、障害の早期検知とシステムの早期改善に貢献し、サービスの品質向上につながっている。牧野氏は「アプリケーションエンジニアが、自分の書いたコードで問題が発生していることに自ら気付けることは大きく、各自が監視のポイントを意識しながら学習サイクルを回すことで、アプリケーションのクオリティ向上につながっていきます」と語る。

今後は、アラートや監視ポイントが増えていく中で、Datadogやクラウドサービスを効果的に活用しながら、人手を介することなく自動でインフラリソースを調整し、開発者がプロダクトの開発に注力してデプロイを1日に何度も実行できるように、エラートラッキングやモニタリングを強化していく考えで、Datadogのサービス強化に期待を寄せている。

「Datadogを使って感じるのは、UIのわかりやすさとレスポンスの速さです。大量のデータを収集してさまざまな切り口で集計したり、複数の監視項目をダッシュボードに配置したりしても、迅速かつわかりやすい形で表示されるため、ストレスなく利用することができます」

株式会社プレイド
中間 亮彬 氏

リソース