データパイプライン運用スタートアップのDefinityは、SparkまたはDBTの実行ドライバー内にエージェントを組み込み、パイプライン実行中に失敗や不正確なデータの発生を検知・抑止する仕組みを提供していますですます調。
同社によると、従来の監視はジョブ完了後にメトリクスを読み取るため、障害が下流に波及した後に問題が見えることが多いとしています。
Definityは単一行のコードでJVMエージェントを実行層に導入し、クエリ実行の挙動、メモリ負荷、データの偏り、シャッフルパターン、インフラ利用状況を実行中に取得します。
さらに、事前に設定されたデータカタログなしで、実行中にパイプラインとテーブルの系譜を動的に推定できるとしています。
エージェントは観測にとどまらず、実行中のリソース配分の変更、悪いデータが伝播する前のジョブ停止、上流条件に基づくパイプラインの事前中止を行えます。
同社は実運用例として、上流ジョブがプリエンプトされ入力テーブルが古い状態を検知し、下流パイプラインの開始前に停止したケースを挙げています。
同社はメタデータのみを外部送信し、約1秒の計算オーバーヘッドが1時間実行あたり発生すると説明し、オンプレミス展開も可能としています。
また、DefinityはGreatPoint Ventures主導でシリーズAとして1200万ドルを調達したと発表しました。
広告テックのNexxenはオンプレミスの大規模Sparkパイプラインで、パイプラインコード変更なしに導入し、最初の1週間で最適化機会の33%を特定し、トラブルシューティングと最適化の工数を70%削減したとしています。
同社は、反応的な調査から、実行中のインテリジェンスによる継続的な最適化へ移ることが重要だとしています。
参照元:2026/04/29 「Definity embeds agents inside Spark pipelines to catch failures before they reach agentic AI systems」 https://venturebeat.com/data/definity-embeds-agents-inside-spark-pipelines-to-catch-failures-before-they-reach-agentic-ai-systems
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント