テンプレート変数やタグにより複数リソースを共通設定
ダッシュボードやアラートの管理を効率化
ココナラでは、急増するサービスに効率的に対応するために、2023年秋頃からDatadogのテンプレート変数やタグによる設定機能を活用することで複数のリソースに共通設定ができるようにした。近年、ココナラは新規サービスが増加しており、「ココナラスキルマーケット」も新たな機能が短期間でリリースされている。インフラの数もそれらに比例して増えているが、監視やアラートの設定はサービス開発のメンバーが個別に対応している。その結果、チームごとに監視環境のバラツキが生じていた。
「そこで、タグを用いて新しいインフラにアラートを容易に設定することや、テンプレート変数を使って取得するメトリクスに漏れがないダッシュボードが作れるようにしました。その結果、開発チームの負荷を軽減しながら、統一基準に基づく監視を全サービスに適用できるようになりました」(上倉氏)
Datadogの導入から約7年。Datadogはココナラの各種サービスの信頼性向上と、ビジネスの成長に寄与している。
「業界トップクラスのユーザー数や出品数を抱える『ココナラスキルマーケット』は、ミッションクリティカルに近いサービスです。そのため監視ツールは極めて高い信頼性が求められます。長きにわたり安定稼働を続けるDatadogの安心感は計り知れないものがあります。また、サービスが増え続けていく中で、インフラ運用の効率化や管理工数の削減でも貢献をいただいています」(川崎氏)
Datadogを活用するうえで欠かせないことの1つが、Datadogからのサポートである。上倉氏は「Datadogは日本語のドキュメントが充実しています。各種資料やDatadogのブログを読むことで、メトリクスの見方や対処方法がすぐわかるのはとても助かります。また、問い合わせへの回答も迅速で、技術面では本社に英語で確認いただいたり、コスト面では日本の営業担当に相談に乗っていただいたりしています」と語る。川崎氏も「Datadogのユーザーコミュニティへの参加により、これまで知らなかった機能や他社の使い方を学ぶ機会が得られることや、Datadogのエバンジェリストと対話できる点でメリットを実感しています」と語る。
今後はさらなる活用に向けて、ダッシュボードの見直しやパフォーマンスの向上、費用対効果の最大化に取り組んでいく予定だ。
「今後は監視項目や取得するメトリクスを見直しながら、管理工数を削減していきます。また、システム信頼性の観点ばかりでなく、パフォーマンスを最大化する観点でも活用していきます」(上倉氏)
さらにココナラ独自のダッシュボードの使い方、ココナラならではのベストプラクティス運用に取り組み、他の監視ツール(Grafana、Prometheus、Amazon CloudWatch)との連携による全体最適化も進めていく計画だ。
「Datadogはオブザーバリティを高める手段としての活用を考えています。他社のベストプラクティスを調査しながら学べるものは学び、全体最適を意識して独自の使い方を模索していきます。また、SREの民主化に向けてバックエンドのエンジニアを中心に勉強会を重ね、アラートの結果から何が起きているか、それを深掘りできる技術力を高めていきます。Datadogには、引き続きユーザーコミュニティの活性化に向けた活動や、ココナラ向けの最適な使い方へのアドバイスを期待しています」(川崎氏)
Datadogは日本語のドキュメントが充実しています。各種資料やDatadogのブロ グを読むことで、メトリクスの見方や対処方法がすぐわかるのはとても助かります。
上倉 孝太 氏
株式会社ココナラ
システムプラットフォーム部
システムプラットフォームグループ
インフラ・ SREチーム