Data Jobs Monitoring | Datadog
Data Jobs Monitoring

Data Jobs Monitoring

Datadog Data Jobs Monitoring を使用して、データパイプライン全体の Spark と Databricks ジョブを監視。トラブルシューティングやコスト最適化もサポート

Data Jobs Monitoring (DJM) は、データプラットフォームチームとデータエンジニアが、データパイプラインのあらゆる場所で問題のある Spark と Databricks のジョブを検出できるツールです。失敗したジョブや長期間実行されたジョブを迅速に修正し、過剰にプロビジョニングされたコンピューティングリソースを率先して最適化することでコストの削減を支援します。DJM は、従来のインフラストラクチャー監視ツールやネイティブインターフェース、ログ分析とは異なり、Spark ステージやタスクレベルでジョブの実行トレースをドリルダウンして簡単に問題を解決し、ジョブのテレメトリーとクラウドインフラをシームレスに関連付けることができる高度なソリューションです。


データパイプラインのあらゆる場所でジョブの失敗やレイテンシーの急増を検出

  • すぐに使えるアラート機能で、ジョブの失敗や完了予定時刻を超えたジョブの実行を即座にチームに通知
  • データプラットフォームの信頼性と推定コストを迅速に分析するために、作業実績の傾向と異常を視覚化
  • 推奨フィルターを使用して、障害、待ち時間、コストの急増など、ジョブやクラスターの健全性に影響を与える重要な問題を浮き彫りにすることで、ジョブの問題解決をより効率化
データパイプラインのあらゆる場所でジョブの失敗やレイテンシーの急増を検出

失敗したジョブや長時間稼働しているジョブを特定し、迅速に解決

  • ジョブの詳細なトレースビューにドリルダウンし、完全な実行フロー (ジョブ、ステージ、タスクなど) と、トラブルシューティングのために失敗した箇所を確認
  • データの偏り、ディスクの流出、その他の一般的な要因によって影響を受ける可能性のある非効率な Spark ステージや SQL クエリを特定することで、遅いジョブの根本原因を把握
  • 最近実行されたジョブを比較し、実行時間、Spark パフォーマンスメトリクス、クラスター使用率、およびコンフィギュレーションの傾向や変化を明らかにすることで、根本原因の分析を促進
失敗したジョブや長時間稼働しているジョブを特定し、迅速に解決

誤ったクラスター割り当てや非効率なジョブを最適化し、コストを削減

  • 過剰にプロビジョニングされたクラスターを特定し、ワーカーノード数とインスタンスタイプを変更することで、コンピュートコストを削減
  • Spark の実行メトリクスを使用してコードやコンフィギュレーションの改善を判断することにより、アプリケーションレベルでジョブの実行効率を向上
  • 最大ジョブのアイドル状態のコンピュートとクラスター使用率を経時的に表示し、データチームや環境ごとにセグメント化。不適切なプロビジョニングを把握してコスト削減の余地を明らかに
誤ったクラスター割り当てや非効率なジョブを最適化し、コストを削減

データパイプラインの可視性をクラウドインフラストラクチャーの他の部分と一元化

  • 統合ダッシュボードでデータパイプラインを完全に可視化し、Snowflake や Airflow といった他の主要テクノロジーからのデータストレージ、ウェアハウス、オーケストレーターのメトリクスをジョブテレメトリーとまとめて表示
  • インフラストラクチャーメトリクス、Spark メトリクス、ログ、コンフィギュレーションなど、主要なデータパイプラインメトリクス間をシームレスにピボットし、ジョブの失敗やレイテンシーの急増に何が影響したかを把握
  • データパイプラインの問題に対するアラートを適切なチームにルーティング。柔軟なタグ付けにより、インシデント対応とデバッグを加速
データパイプラインの可視性をクラウドインフラストラクチャーの他の部分と一元化

対応テクノロジーとプラットフォーム

databricks spark amazon-emr kubernetes
Data Jobs Monitoring のおかげでデータワークロードをアプリケーションやインフラと一元管理でき、スケーリングしているプラットフォームに対する信頼性が劇的に向上しました。DJM を使用してリアルタイムのアラート設定と失敗したジョブの根本原因を簡単に特定できるようになったことで、失敗した Databricks ジョブをチームで 20% 速く解決できるようになりました。
マット・カミリ
マット・カミリ Rhythm Energy 社 エンジニアリング部門責任者

Customer Testimonials

Data Jobs Monitoring のおかげでデータワークロードをアプリケーションやインフラと一元管理でき、スケーリングしているプラットフォームに対する信頼性が劇的に向上しました。DJM を使用してリアルタイムのアラート設定と失敗したジョブの根本原因を簡単に特定できるようになったことで、失敗した Databricks ジョブをチームで 20% 速く解決できるようになりました。
マット・カミリ

マット・カミリ

Rhythm Energy 社 エンジニアリング部門責任者

リソース

products/data-jobs-monitoring/data_jobs_monitoring_product_hero_desktop_v2

official docs

Data Jobs Monitoring
/blog/monitoring-spark/160518-hadoop-intro-final

BLOG

Hadoop & Spark monitoring with Datadog
/blog/databricks-monitoring-datadog/databricks_hero

BLOG

Monitor Databricks with Datadog
/blog/data-jobs-monitoring/djm-hero

BLOG

Troubleshoot and optimize data processing workloads with Data Jobs Monitoring