テキスト推論、ロングコンテキスト理解、画像・動画生成。複雑なワークフローとビジュアル制作のために構築。
1.6T MoEアーキテクチャがSWE-Benchを制覇。複雑な論理推理とコーディングでトップティアモデルに匹敵、コストはわずか。
100万トークンコンテキストと完璧なMCP統合。2026年のエージェントワークフローとツール実行の究極エンジン。




ウェブ検索対応の生成機能を搭載した初のモデル。正確なCJKおよび英語のテキストレンダリング。1画像あたりわずか $0.034 — GPT-Image-2の1/5のコスト。




ウェブ検索対応の生成機能を搭載した初のモデル。正確なCJKおよび英語のテキストレンダリング。1画像あたりわずか $0.034 — GPT-Image-2の1/5のコスト。
ネイティブオーディオのリップシンクを備えた15秒のマルチショットストーリー生成、エンドツーエンドの画像から動画へのパイプライン。VEO3に匹敵する視覚的品質と動きの一貫性。
キーフレーム制御付きテキスト/画像から動画への生成、ネイティブオーディオ合成を備えた3〜15秒のマルチアスペクト出力。VEO3に匹敵する物理シミュレーションと動きの一貫性。
エージェント時代のために構築。テキストプロンプトだけでユニークな声を定義。笑い、溜息、動的な感情を自然に注入。
Hugging Face TTSアリーナを制覇。3秒のサンプルからあらゆる声を完璧にクローン、32言語対応。
標準OpenAI SDKと完全互換。テキスト、ビデオ、ビジョン、TTSに対応。