OpenAIがGPT-4.1モデルファミリーを発表、コーディングや指示追従能力が向上

記事の要約

  • OpenAIがGPT-4.1モデルファミリーを発表
  • コーディング、指示追従、ロングコンテキスト処理が向上
  • GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoの3モデルを提供

GPT-4.1モデルファミリーのAPI公開

OpenAIは2025年4月14日、GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoの3つの新しいモデルをAPIで公開した。これらのモデルは、コーディングと指示追従においてGPT-4oおよびGPT-4o miniを上回る性能を示す。最大100万トークンのコンテキストをサポートし、改善されたロングコンテキスト理解により、そのコンテキストをより効果的に活用できるのだ。

GPT-4.1は、SWE-bench Verifiedで54.6%、ScaleのMultiChallengeベンチマークで38.3%、Video-MME(ロング、字幕なし)で72.0%という業界標準の測定基準で優れた性能を発揮する。これらのモデルは、開発者コミュニティとの緊密な連携により、アプリケーションにとって最も重要なタスクに最適化されている。

GPT-4.1ファミリーは、低コストで優れたパフォーマンスを提供する。レイテンシカーブ上のあらゆる点でパフォーマンスを向上させているのだ。GPT-4.1 miniは小型モデルのパフォーマンスにおいて大きな飛躍を遂げ、多くのベンチマークでGPT-4oを上回る。GPT-4.1 nanoは、高速で低コストなモデルであり、分類やオートコンプリートなどのタスクに最適だ。

GPT-4.1モデルファミリーのベンチマーク結果と事例

ベンチマークGPT-4.1GPT-4o (2024-11-20)GPT-4.1 miniGPT-4.1 nano
SWE-bench Verified54.6%33.2%23.6%
Scale’s MultiChallenge38.3%27.8%35.8%15.0%
Video-MME (long w/o subs)72.0%65.3%
MMLU90.2%85.7%87.5%80.1%
GPQA Diamond166.3%46.0%65.0%50.3%
Aider’s polyglot: whole51.6%30.7%34.7%9.8%
Aider’s polyglot: diff52.9%18.2%31.6%6.2%

GPT-4.1の機能解説

GPT-4.1は、最大100万トークンのコンテキストを処理できる。これは、以前のGPT-4oモデルの128,000トークンから大幅な増加だ。このロングコンテキスト処理能力は、大規模なコードベースや長文ドキュメントの処理に最適である。

  • ロングコンテキスト処理の向上
  • 指示追従精度の向上
  • コーディング能力の向上

GPT-4.1は、100万トークンという長いコンテキスト全体の情報に確実にアクセスし、関連するテキストを認識し、長短問わずコンテキスト内の邪魔な情報を無視する能力がGPT-4oよりも大幅に向上している。

GPT-4.1に関する考察

GPT-4.1は、コーディング、指示追従、ロングコンテキスト処理において顕著な改善が見られ、開発者の生産性向上に大きく貢献するだろう。特に、大規模なプロジェクトや複雑なタスクにおいてその効果は大きいと予想される。しかし、モデルの複雑さが増すにつれて、予期せぬエラーやバグが発生する可能性も無視できない。

そのため、OpenAIは継続的な監視とアップデートを行い、安定性と信頼性を確保する必要がある。また、モデルの利用コストやレイテンシについても、開発者にとって重要な要素となるため、最適化を継続していくことが重要だ。さらに、多言語対応や特定ドメインへの特化など、今後の機能拡張にも期待したい。

将来的には、GPT-4.1が様々なアプリケーションに統合され、より高度なAIシステムの構築を促進するだろう。その過程で、倫理的な問題やセキュリティ上の課題も発生する可能性があるため、適切な対策を講じる必要がある。OpenAIは、技術革新と社会への責任を両立させ、AI技術の健全な発展に貢献していくべきだ。

参考サイト/関連サイト

  1. Open AI.「Introducing GPT-4.1 in the API」.https://openai.com/index/gpt-4-1/, (参照 2025-05-15).

関連タグ