StepFunが画像入力対応の198B MoEモデル「Step 3.7 Flash」を公開

2026年5月30日

StepFunは2026年5月29日、マルチモーダルMixture-of-Experts（MoE）モデル「Step 3.7 Flash」をリリースしました。
本モデルは総パラメータ198Bで、言語バックボーン196Bと画像エンコーダ（ViT）1.8Bで構成されています。
推論時にトークンごとに活性化するのは約11Bで、計算量を密な11B級に近づけつつ、全体では198Bの容量を持つのが特徴です。
コンテキスト長は256kトークンで、処理速度は最大400トークン/秒とされています。
Step 3.5 Flashがテキスト専用だったのに対し、3.7ではネイティブな視覚入力に対応しました。
推論の深さは低・中・高の3段階から選べ、レイテンシと推論量の調整が可能です。
コーディングエージェント用途ではSWE-Bench Proで56.26%と、前モデルの51.3%から改善したとしています。
端末ベンチでも59.55%を記録し、Advisor ModeではSWE-Bench Verifiedで1タスク当たり0.19ドルとし、Claude Opus 4.6（1.76ドル）に対する性能比を97%と報告しました。
視覚機能はVisual Search ToolとPythonツールの2系統を提供し、検索を組み込んだリサーチ設計も強調されています。
ライセンスはApache 2.0で、重みはHugging Faceで公開されています。

参照元：2026/05/30 「StepFun Releases Step 3.7 Flash: A 198B MoE Vision-Language Model for Coding Agents and Search Workflows」 https://www.marktechpost.com/2026/05/29/stepfun-releases-step-3-7-flash-a-198b-moe-vision-language-model-for-coding-agents-and-search-workflows/