StepFunが画像入力対応の198B MoEモデル「Step 3.7 Flash」を公開

StepFunは2026年5月29日、マルチモーダルMixture-of-Experts(MoE)モデル「Step 3.7 Flash」をリリースしました。
本モデルは総パラメータ198Bで、言語バックボーン196Bと画像エンコーダ(ViT)1.8Bで構成されています。
推論時にトークンごとに活性化するのは約11Bで、計算量を密な11B級に近づけつつ、全体では198Bの容量を持つのが特徴です。
コンテキスト長は256kトークンで、処理速度は最大400トークン/秒とされています。
Step 3.5 Flashがテキスト専用だったのに対し、3.7ではネイティブな視覚入力に対応しました。
推論の深さは低・中・高の3段階から選べ、レイテンシと推論量の調整が可能です。
コーディングエージェント用途ではSWE-Bench Proで56.26%と、前モデルの51.3%から改善したとしています。
端末ベンチでも59.55%を記録し、Advisor ModeではSWE-Bench Verifiedで1タスク当たり0.19ドルとし、Claude Opus 4.6(1.76ドル)に対する性能比を97%と報告しました。
視覚機能はVisual Search ToolとPythonツールの2系統を提供し、検索を組み込んだリサーチ設計も強調されています。
ライセンスはApache 2.0で、重みはHugging Faceで公開されています。

参照元:2026/05/30 「StepFun Releases Step 3.7 Flash: A 198B MoE Vision-Language Model for Coding Agents and Search Workflows」 https://www.marktechpost.com/2026/05/29/stepfun-releases-step-3-7-flash-a-198b-moe-vision-language-model-for-coding-agents-and-search-workflows/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/31
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次