OpenAIは大規模AIモデル学習向けの新しいネットワークプロトコル「MRC(Multipath Reliable Connection)」を公開しました。
同プロトコルは過去2年にわたりAMD、Broadcom、Intel、Microsoft、NVIDIAと共同で開発され、Open Compute Project(OCP)を通じて仕様が公開されています。
OpenAIは、学習時に数百万規模のデータ転送が発生し、遅延やジッターが起きるとGPUが待機して訓練ジョブ全体に波及する点を課題に挙げました。
そこでMRCは、輻輳やリンク障害、機器故障があっても性能を予測可能に保ち、訓練を止めないことを目標としています。
MRCはRoCEを拡張し、SRv6のソースルーティングでパケット経路をヘッダーに埋め込み、スイッチ側の複雑な経路計算を減らします。
加えて、複数の経路にパケットを同時分散する「アダプティブ・パケットスプレー」により、コアでの渋滞を抑え、テールレイテンシの低減を狙います。
障害時はマイクロ秒単位で迂回ルーティングし、スイッチは静的経路を追従する設計で再計算の干渉を避けます。
さらに、ネットワークをマルチプレーン化し、8つの100Gb/sプレーンに分割して2段のスイッチ構成で131,000台規模のGPU接続を可能にするとしています。
MRCは既にOpenAIのNVIDIA GB200スーパーコンピューター群で稼働し、ChatGPTやCodex向けの最前線モデル学習にも使用されたとしています。
参照元:2026/05/07 「OpenAI Introduces MRC (Multipath Reliable Connection): A New Open Networking Protocol for Large-Scale AI Supercomputer Training Clusters」 https://www.marktechpost.com/2026/05/07/openai-introduces-mrc-multipath-reliable-connection-a-new-open-networking-protocol-for-large-scale-ai-supercomputer-training-clusters/
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント