データを日本国内で保有でき UI/UXに優れたDatadogを採用 国内株式の個人取引でトップクラスのシェアを誇るSBI証券。同社は2019年に「ネオ証券化」構想を打ち出し、2023年9月末からインターネット取引における国内株式売買手数料を無料にする「ゼロ革命」を開始した。そこで同社は、取引量の急増に備えてオンプレミス環境で運用してきた国内株式取引システムを、アマゾン ウェブ サービス(AWS)に移行することを決定。2022年11月より、フロントアプリケーション、統合DB、バッチ処理、注文処理基盤など多岐にわたるシステムの移行プロジェクトを開始した。
AWS上で運用する取引システムの監視・ログ管理は当初、AWSのマネージドサービスを活用する想定で構築を進めていたが、同社にとって機能面で十分とはいえなかった。SBIグループの戦略的IT会社であるSBIシンプレクス・ソリューションズのタナシャイ スントーンウティクル氏は「マルチアカウントでシステムを管理している当社の環境において、当時のAWSのサービスはアカウントごとに監視する、あるいはログを収集する必要があり、統合管理ができませんでした。機能面でも課題があることから、外部のクラウド運用管理ツールの活用を決めました」と語る。
複数のツールを検討した同社は、金融事業者には必須となるデータを国内に保持できることと、洗練されて使いやすいUI/UXを評価してDatadogの採用を決定した。
「要件として国内にデータを置く必要があり、唯一対応していたのがDatadogでした。加えて、画面のわかりやすさや使い勝手など総合的に評価しました」(タナシャイ氏)
導入に先駆け、まずは2023年4月から約3カ月間のPoCを実施。同年10月よりスモールスタートとして、開発環境と一部システムでインフラモニタリング(Infrastructure)とログ管理(Logs)の利用を開始した。その後、リアルユーザーモニタリング(RUM)、アプリケーションパフォーマンス(APM)、データベースモニタリング(DBM)、ネットワークパフォーマンスモニタリング(NPM)など、利用サービスやユーザーを拡大していった。
「Agentを各サーバーにインストールする都合上、安全性を考慮してスモールスタートとしました。導入時は、Datadogのサポートから当社特有の使い方に対応するためのアドバイスをいただきながら進めました」(タナシャイ氏)
写真左側:タナシャイ スントーンウティクル 氏、右側:生田 貴則 氏 アラート検知数がオンプレミス比で2倍以上 に向上これまで見えていなかった異常も素早く検知
現在、CCoEチーム、アプリケーションチーム、DBチーム、ネットワークチームなど、約350名のエンジニアがDatadogを利用して、1日2兆円超の株式取引を処理するオンライン取引システムの安定運用を支えている。Datadogのサービスもネットワークデバイスモニタリング(NDM)、監査証跡(Audit Trail)、外形監視(Synthetic)などに拡大。DBMによるDB監視は国内最大クラスの100以上のインスタンスをカバーし、NDMによる監視デバイス数も国内最大クラスだ。2024年7月にはエラー追跡(Error Tracking)の機能を導入し、類似したエラーをグルーピング化して早期検知を実現している。
「利用するDatadogのサービスはチームによって異なりますが、原則としてダッシュボードを作成し、何らかの異常やエラーがあればWatchdogで自動的に通知が来るようにしています。私が所属するCCoEチームでは、毎朝株式市場がオープンする前にシステムの稼働状況を確認して各種の設定を見直しています。各アプリケーションの稼働をハイレベルで見ながら、異常があれば他のチームに指摘することもしています」(タナシャイ氏)
Datadogの導入により、アラート検知数は従来のオンプレミス比で2倍以上となり、これまで見えていなかった異常を素早く発見して対処できるようになった。執行役員 リテールIT部長の生田 貴則 氏は「具体例として、Datadog内のSyntheticsでお客様に提供しているサービスでアラートがあがり、エラーが発生している事象を検知した事がありました。実際にはまだ大多数のお客様へ影響が出ているとまでは言えない状況でしたが異常を検知した後に、該当サービスで利用しているサーバの負荷状況を確認すると、本来は複数台で分散されているべき処理が、特定のサーバに偏った状態となっている事を確認できました。素早く異常を検知できたことで被害が拡大する前に複数台の分散へ処理を復旧させることでトラブルを未然に防ぐことが出来ました」と振り返る。
エンジニアの負担が軽減されたこともDatadog導入の大きな効果だ。オンプレミス環境では10個以上のOSSツールを個別に導入して利用していたため、インシデントが発生すると各ツールを調べる必要があり、中には解決に数時間かかるケースもあった。Datadogの導入で全員が同じ画面を見ながら情報共有ができるようになり、効率が一気に高まった。エンジニアは、トラブルの原因の切り分けが自分でできるため、他チームに依頼することなく解決ができるようになるケースが増えている。また自チームが管理するサブシステム外に原因があった場合にも、Datadog内で同じデータを見ながら情報の共有できるため、事象の証明がより簡単になり結果として認識のずれが少なくなり解決までの速度が増している事を実感している。
「結果として、エンジニアは本来行うべき業務に集中できるようになりました。当初は前向きでなかったエンジニアも、今となっては“可視化ができるのは便利”と評価し、監視対象を拡げて欲しいといった意見も出るようになっています。UI/UXが優れたDatadogなら、慣れていない初心者でも手軽に使えるため、毎日積極的にシステム状況を見るようになり、モチベーションの向上にもつながっています」(生田氏)
Datadogのテクニカルアカウントマネージャー(TAM)とは週1回の全体会議や、週数回のチームセッション、随時のチャットやメールで継続的にコミュニケーションを取り、サポートチケットでは得られない細かいことを確認している。
「私たちの今後のやりたいことに対して、TAMからDatadogの新しいサービスや使い方を紹介していただくことも多く、クイックな情報提供ときめ細かなフォローに助けられています」(タナシャイ氏)
今後に向けてはプッシュ通知のオンコール(On-Call)を評価中で、ベータ版の本番利用を開始している。これにより、インシデント対応が迅速化かつ効率化される見込みだ。その他にも、ローコード開発ツールのApp Builderやワークフロー自動化ツールのWorkflow Automationを活用した復旧プロセスの自動化を目指す。
「分析ツールとしての統合を終えつつある今、次はITサービスマネジメント全体の改革にDatadogを活用していく段階です。金融サービスの安定運用を維持しながら、運用の効率化を追究していきます」(生田氏)
Datadogの洗練されたUI/UXにより、1つの画面でほとんどのことがわかるため無駄な操作がなくなり、ログを掘り下げることでシステムの詳細な稼働まで確認ができるので、システム状況を効率的に把握できるようになりました
タナシャイ スントーンウティクル 氏 SBIシンプレクス・ソリューションズ株式会社 アーキテクト推進部 ジェネラルマネジャー