コンシューマ向け決済システムの APMツールとしてDatadogを採用 オンライン決済から実店舗決済まで、総合的な決済サービスを提供するSBペイメント。同社で個人向けキャリア決済サービス「ソフトバンクまとめて支払い」のシステム開発を手がけるコンシューマシステム開発部のコンシューマシステム開発課では、既存のAPMツール(アプリケーションパフォーマンス監視)がライセンス切れを迎えていた。そこで、既存ツールを含めて3社の製品を比較した中から、Datadogの採用を決定した。
同課 課長の河田玲史氏は「コンシューマ向け決済サービスはトランザクション量が多く、1秒間に1,000件近くのリクエストが送られてきます。決済サービスとしてシステム遅延はビジネスに大きな影響を与えるため、障害時は1分単位の対応が求められ、APMは必須のツールとなっています。その中で、Datadogはスモールスタートで始められる完全従量課金制であることと、ダッシュボード作成の容易さの2点を評価して採用を決めました」と振り返る。
金融機関への導入実績が豊富で、既存ツールのPCインストール型と比べてブラウザー経由でデバイスを問わず利用できる利便性と、ユーザーライセンス課金でなく、Agentインストール課金で費用対効果が高い点においても評価が高かった。システム運用統制部 部長の鈴木順也氏は「グループ会社のソフトバンクや同業他社の導入事例を見て、Datadogなら安心して導入できると判断しました」と語る。
導入前には秒間1,000件のトランザクションに耐えられるパフォーマンスと、センシティブな情報がDatadogのサーバーに保持されないことを確認し、2021年より「ソフトバンクまとめて支払い」のシステムと、ソフトバンクカードのシステムの2つでAPMの利用を開始した。その後、決済事業者と加盟店をつなぐ加盟店決済代行システムにもAPMの活用領域を拡大。DatadogのサービスもNDM(ネットワークデバイスモニタリング)を追加した。現在、システム本部全体の8割に相当する約80人がDatadogを利用してモニタリングを行っている。
写真左側:大磯 伊織、真ん中:鈴木 順也、右側:河田 玲史 ダッシュボードをカスタマイズしながら 複数システムを一元的に監視
Datadogの活用法は部門によりさまざまであるが、システム運用統制部長として全システムの稼働状況を網羅的に把握する鈴木氏は、アプリケーションのパフォーマンス低下などの原因追及で利用している。
「Datadogの場合、デフォルトで提供されるダッシュボードが勘どころをしっかり押さえて作られているので標準のまま使い、サービス停止を起こさないための用途で利用しています。過去にあるシステムのDBに障害が発生した際も、ダッシュボードを見るだけで特定のSQLクエリの異常が発見できました。目に見えるからこそ発見できた障害で、ログ分析だけでは迷宮入りしたかもしれません」(鈴木氏)
システム本部においてDatadogを積極的に活用しているのが、加盟店決済代行システムの開発を担当するシステム開発部 加盟店システム開発課の大磯伊織氏だ。同氏は特定システムの特定領域に特化したダッシュボードを独自に複数作成して利用している。現在、オリジナルダッシュボードは15本近くあり、他のユーザーにも開放している。
「障害発生時に複数のダッシュボードをまとめて見れば、システム間のつながりを確認しながらどこに原因があるか把握できるので、スムーズに対処することができます」(大磯氏)
通常の運用とは別に、システム開発時の負荷試験で活用しているのも特徴だ。
「試験環境で負荷をかけてアプリケーションのメトリックスを取得し、CPUやメモリーの負荷を確認しています。外部との通信時間を可視化するダッシュボードも用意して、レスポンスのタイムアウト値を、6カ月、1年とさかのぼりながら改善に役立てています」(大磯氏)
「ソフトバンクまとめて支払い」の開発を担当する河田氏は、アプリケーションパフォーマンスの他、キャリアやカード事業者との外部接続時のレスポンスタイムを監視している。
「キャリア決済の場合、外部の連携先が多く、1カ所でも遅延すると全体の遅れにつながることから、レスポンスタイムを一覧表示するダッシュボードを監視して、早期検知を実現しています」(河田氏)
このように使い方はさまざまだが、複数のシステムが連携する決済サービスにおいて、全体を包括的に監視しながらアプリケーションパフォーマンスの低下原因が早期に特定できるようになったことがDatadog導入の一番の成果だと鈴木氏は強調する。
「可視化されたことで原因特定が早くなり、対処のリードタイムを短縮することができました。開発者は担当以外のシステム状況もDatadog上で見られるので、別の視点で意見を求められるようになったことも今までにない変化です。こうしたことで、再現性がなく、今までお蔵入りしていた障害の原因まで発見できるようになりました」(鈴木氏)
また、蓄積されていく過去の障害時のデータを、参照できるようになったことも効果の1つだ。従来の監視システムは過去1週間までしか確認できず、それ以上さかのぼることができなかった。
「Datadogなら1年以上のデータが財産として溜まっていくので、“あの時どうだったか”と振り返ることができ、開発・運用時に気をつけるべきことが明確化されました」(大磯氏)
Datadogのサポートに関しては、充実した日本語ドキュメント、ユーザー事例、カンファレンス、勉強会などを評価。レガシーシステムが原因でDatadogの挙動に異常が発生した際も、サポート窓口への問い合わせで速やかに解決できた。
今後については、Datadogのサービスとしてアプリケーションの性能を解析するプロファイラーや、データベースの状態を可視化するデータベースモニタリング、さらには生成AIベースのアシスタント機能などに関心を寄せている。
「蓄積されているデータを活かしながら、チャットベースで障害の原因を特定できるBits AI には注目しているので、試してみたいと思っています」(鈴木氏)
スモールスタートで始められる完全従量課金制であることと、ダッシュボード作成の容易さの2点を評価してDatadogの採用を決めました
河田 玲史 氏 SBペイメントサービス株式会社 システム本部 コンシューマシステム開発部 コンシューマシステム開発課 課長
通常の運用だけでなく、システム開発時の負荷試験で活用し、アプリケーションのメトリックスを取得しながらCPUやメモリーの負荷を確認しています
大磯 伊織 氏 SBペイメントサービス株式会社 システム本部 システム開発部 加盟店システム開発課