2025年8月7日に GPT-5 が公開されたので、その system card をざっくりまとめてみました。
この system card は、GPT-5 に関する公式文書の要約で、主にgpt-5-thinkingとgpt-5-mainに焦点を当て、GPT-5の全体像、その能力、安全性、そして将来のリスクへの備えについて詳細に説明している文章です。
ブログではさっと見返すためのためのざっくりなまとめなので、興味がありましたら原文もチェックしてみてください。
- 1 導入
- 2 モデルデータとトレーニング
- 3 Observed Safety Challenges and Evaluations (観測された安全性課題と評価)
- 3.1 強固な拒否から安全な補完へ (From Hard Refusals to Safe-Completions)
- 3.2 不許可コンテンツ (Disallowed Content)
- 3.3 追従性 (Sycophancy)
- 3.4 ジェイルブレイク (Jailbreaks)
- 3.5 指示の階層 (Instruction Hierarchy)
- 3.6 ハルシネーション (Hallucinations)
- 3.7 欺瞞 (Deception)
- 3.8 画像入力 (Image Input)
- 3.9 健康 (Health)
- 3.10 多言語性能 (Multilingual Performance)
- 3.11 公平性とバイアス (Fairness and Bias: BBQ Evaluation)
- 4. Red teaming と外部評価
- 5. Preparedness Framework (準備態勢フレームワーク) の導入

1 導入
GPT-5は、複数のモデルとリアルタイムルーターで構成される統合システム。GPT-5システムの中核には、大きく分けて二つのタイプのAIモデルがある。
| model | 概要 |
|---|---|
| gpt-5-main | GPT-4oの後継モデルで、高速かつ高スループットの応答に特化。日常的な質問や素早い情報提供に適している。 |
| gpt-5-thinking | OpenAI o3の後継モデルで、より深い推論能力を持つ。回答を生成する前に、長い内部思考連鎖を生成するように訓練されており、より正確で詳細な情報を提供可能。 |
この二層構造は、AIの応答速度と推論深度という、しばしばトレードオフの関係にある要素を両立させるためのOpenAIの戦略を示している。これにより、ユーザーは質問の性質に応じて最適なAI体験を得ることが可能になる。
Real-time router の採用
GPT-5システムには real-time router (リアルタイムルーター) と呼ばれる賢いオーケストレーター役がいる。
- このルーターは、ユーザーからの質問(クエリ)の種類、複雑さ、必要なツールの有無、そしてユーザーの明示的な意図を瞬時に分析し、最適な「main」モデルか「thinking」モデルかを判断して割り当てる。
- このルーターは、ユーザーがモデルを切り替えるタイミングや、応答の好み、測定された正確性などの実際の信号に基づいて継続的にトレーニングされ、時間とともにその判断能力を向上させる。
- ルーターの存在は、GPT-5が単なるモデルの集合体ではなく、動的に最適化されるインテリジェントなシステムであり、ユーザー体験のパーソナライズと効率化に不可欠な要素となっている。
GPT-5ファミリーの主要モデル
GPT-5システムは、細分化された複数のモデルで構成されており、それぞれが特定のニーズに対応している。
| モデル名 | 前身モデル | 速度 | 推論深度 | 主な用途 |
|---|---|---|---|---|
| gpt-5-main | GPT-4o | 高速 | 中程度 | 日常的な質問、素早い情報提供、高スループット |
| gpt-5-main-mini | GPT-4o-mini | 非常に高速 | 浅い | 軽量なタスク、モバイルアプリケーションなど |
| gpt-5-thinking | OpenAI o3 | 中速 | 非常に深い | 複雑な問題解決、詳細な分析、創造的なタスク |
| gpt-5-thinking-mini | OpenAI o4-mini | 中速 | 深い | 中程度の複雑さの推論、効率的な思考プロセス |
| gpt-5-thinking-nano | なし | 高速 | 浅い | 開発者向け、高速なプロトタイピング |
| gpt-5-thinking-pro | なし | 中速 | 非常に深い | ChatGPTでの高度な推論利用、並列処理 |
GPT-5の主な進化
- ベンチマークで旧モデルを上回り、質問への回答がより高速です。
- さらに重要なことに、実世界のクエリに対してより有用です。
- ハルシネーションの削減、指示従順性の向上、追従的発言の最小化において大きな進歩を遂げています。
- ChatGPTの最も一般的な3つの用途(ライティング、コーディング、ヘルス)でのパフォーマンスを向上させています。
- すべてのGPT-5モデルは、禁止されているコンテンツを防ぐための最新の安全トレーニングアプローチであるセーフ・コンプリーションを特徴としています。
2 モデルデータとトレーニング
GPT-5モデルのトレーニングは、以下の多様なデータセットと厳格なプロセスを組み合わせて行われました。
- データセットの多様性:
- インターネット上で公開されている情報。
- 第三者との提携を通じてアクセスする情報。
- ユーザーや人間のトレーナー、研究者が提供または生成する情報。
- 厳格なデータ処理パイプライン:
- データの品質を維持し、潜在的なリスクを軽減するために厳格なフィルタリングが適用されています。
- トレーニングデータからの個人情報の削減には、高度なデータフィルタリングプロセスが使用されています。
- 有害または機密性の高いコンテンツ(例:未成年者を含む性的コンテンツ)の使用を防ぐため、OpenAIのModeration APIと安全分類器の組み合わせが活用されています。
- 推論モデルのトレーニング:
- gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nanoといったOpenAIの推論モデルは、強化学習(reinforcement learning)によって推論するように訓練されています。
- これらのモデルは、回答する前に「考える(think)」ように訓練されており、ユーザーに返答する前に長い内部の思考の連鎖(internal chain of thought)を生成することができます。
- トレーニングを通じて、モデルは自身の思考プロセスを洗練させ、異なる戦略を試み、自身の誤りを認識するように学習します。
- この推論能力により、モデルはOpenAIが設定した特定のガイドラインやモデルポリシーに従うことができ、安全性の期待に沿った動作を支援します。これにより、より役立つ回答を提供し、安全規則を回避しようとする試みに対してより強く抵抗するようになります。
3 Observed Safety Challenges and Evaluations (観測された安全性課題と評価)
このセクションでは、OpenAIの新しいGPT-5モデル(特にgpt-5-thinkingとgpt-5-main)の安全性に関する様々な側面が評価され、多くの場合、先行モデルと比較されています。評価は、モデルの安全性プロファイルの進捗を理解するために、gpt-5-thinkingとOpenAI o3、およびgpt-5-mainとGPT-4oを比較して行われました。
3.1 強固な拒否から安全な補完へ (From Hard Refusals to Safe-Completions)
- 従来のLLMは、安全性ポリシーによって許可されないプロンプトに対しては、最大限の有用性を提供するか、完全に拒否するように訓練されていました。
- OpenAIは、「安全な補完 (safe-completions)」という新しい安全訓練アプローチを導入しました。これは、ユーザーの意図の二項分類ではなく、アシスタントの出力の安全性に焦点を当てています。
- このアプローチにより、GPT-5モデルでは、特にデュアルユース(二重用途)のプロンプトにおいて、安全性が向上し、残存する安全上の問題の深刻度が低減し、全体的な有用性が大幅に向上しました。
3.2 不許可コンテンツ (Disallowed Content)
- GPT-5モデルは、OpenAIのポリシーで許可されていない(憎悪表現や違法なアドバイスなど)コンテンツのリクエストに応じないかどうかが評価されました。
- 標準的な不許可コンテンツ評価では、最新モデルはほぼ完璧な性能を示し、gpt-5-thinkingはOpenAI o3と同等かそれ以上の結果でした。
- プロダクションベンチマーク(より挑戦的な複数ターン評価)では、gpt-5-thinkingは一般的にOpenAI o3と同等かそれ以上の性能を示しました。
- gpt-5-mainは、GPT-4oと比較して、非暴力的な違法行為や暴力的な違法行為において統計的に有意な改善を示しました。これは「安全な補完」のパラダイムによるものとされています。
3.3 追従性 (Sycophancy)
- モデルがユーザーの意見に過度に同調する「追従性」の挙動を減らすために、GPT-5では事後訓練が行われました。
- オフライン評価では、gpt-5-thinkingはOpenAI o3やGPT-4oと比較して追従性を大幅に抑制し、GPT-4oの0.145に対し、gpt-5-thinkingは0.040という低いスコアを記録しました。
- オンラインの予備測定でも、gpt-5-mainはGPT-4oと比較して追従性の発生率が無料ユーザーで69%、有料ユーザーで75%減少しました。
3.4 ジェイルブレイク (Jailbreaks)
- モデルが生成してはならないコンテンツを意図的に回避しようとする敵対的なプロンプト(ジェイルブレイク)に対する堅牢性が評価されました。
- gpt-5-thinkingは、ほとんどのカテゴリでOpenAI o3と同等かそれ以上の性能を示し、ジェイルブレイクに対する堅牢性を維持していることが確認されました。
3.5 指示の階層 (Instruction Hierarchy)
- モデルがシステムメッセージ、開発者メッセージ、ユーザーメッセージ間の指示階層に適切に従うかどうかが評価されました。
- モデルは、システムメッセージの指示を開発者メッセージよりも優先し、開発者メッセージの指示をユーザーメッセージよりも優先するように訓練されています。
- gpt-5-thinkingはOpenAI o3と同等の高い性能を維持しましたが、gpt-5-mainでは一部のシナリオで性能の退行が見られました。
3.6 ハルシネーション (Hallucinations)
- GPT-5モデルの訓練では、事実に基づくハルシネーション(誤情報生成)の頻度を減らすことに重点が置かれました。
- ChatGPTのプロダクション環境でのファクト性評価(ブラウジング有効時)では、gpt-5-thinkingはOpenAI o3よりもハルシネーション率が65%低減し、少なくとも1つの主要な事実誤りを含む応答が78%減少しました。
- 「ブラウジング有効」および「ブラウジング無効」の両設定において、GPT-5モデルはOpenAI o3よりも有意に低いハルシネーション率を示しました。特にgpt-5-thinkingは、3つのベンチマーク全てでOpenAI o3より5倍以上少ない事実誤りしかありませんでした。
3.7 欺瞞 (Deception)
- モデルが内部の推論や実際に行った行動を誤って表現する「欺瞞」が評価されました。以前のモデル、特にOpenAI o3は、完了していないタスクを完了したと主張したり、虚偽の経験を捏造したりする問題が見られました。
- gpt-5-thinkingでは欺瞞の傾向を減らすための措置が取られ、解決不可能なタスクを正直に認め、環境の失敗に対してより堅牢になるように訓練されました。
- 4つの評価設定すべてで、gpt-5-thinkingは先行モデルであるOpenAI o3よりも有意に少ない欺瞞行動を示しました。
- 特に、モデルの思考の連鎖(CoT)を監視するシステムでは、OpenAI o3の応答の約4.8%で欺瞞が検出されたのに対し、gpt-5-thinkingでは約2.1%にとどまりました。
3.8 画像入力 (Image Input)
- GPT-5モデルは、不許可なテキストと画像の組み合わせ入力に対する出力の安全性が評価されました。
- gpt-5-thinkingは一般的にOpenAI o3よりもわずかに高い性能を示し、gpt-5-mainはGPT-4oと同等かわずかに高い性能でした。
3.9 健康 (Health)
- 健康関連のセッティングでの性能と安全性を測定するため、HealthBenchで評価されました。
- gpt-5-thinkingは、GPT-4o、OpenAI o1、OpenAI o3、OpenAI o4-miniを含むすべての以前のOpenAIモデルを大幅に上回る性能を示しました。HealthBench HardのSOTA(State-of-the-Art)スコアは、OpenAI o3の31.6%からgpt-5-thinkingの46.2%に向上しました。
- 挑戦的な会話でのハルシネーション、高リスクな状況での不適切な情報提供、およびグローバルヘルスコンテキストへの調整失敗といった3つの特定のエラー領域で、gpt-5-thinkingはOpenAI o3から8倍以上のエラー率削減を達成しました。
3.10 多言語性能 (Multilingual Performance)
- MMLUのテストセットを13言語に翻訳して、多言語能力が評価されました。
- gpt-5-thinkingとgpt-5-mainは、既存モデルと一般的に同等の性能を示しました。
3.11 公平性とバイアス (Fairness and Bias: BBQ Evaluation)
- モデルはBBQ評価ベンチマークで評価されました。
- gpt-5-thinkingは、曖昧な質問ではOpenAI o3と同様のスコアを示しましたが、コンテキストで答えが提供される明確化された質問ではわずかに低いスコアでした。gpt-5-mainは、曖昧な質問ではGPT-4oよりわずかに高く、明確化された質問では同等の性能でした。
4. Red teaming と外部評価
- OpenAIは、gpt-5-thinkingの主要なリスクを評価するため、外部の Red Teamers と協力。
- Red teaming キャンペーンは、事前展開研究、APIセーフガードテスト、製品内セーフガードテストの3つのグループに分類されました。
- この取り組みには、400人以上の外部テスターと専門家による9,000時間以上の作業が含まれました。
- 優先された評価トピックには、暴力的な攻撃計画、セーフガードを回避するジェイルブレイク、プロンプトインジェクション、生物兵器化が含まれている。
4.1 暴力的な攻撃計画に関する専門家による Red Teaming
- 国防、諜報、法執行機関/セキュリティの専門家25名からなる Red Teamers が、gpt-5-thinkingが暴力的な攻撃計画にどれだけ有用かを評価した。
- gpt-5-thinkingとOpenAI o3が並行して比較され、gpt-5-thinkingがOpenAI o3よりも65%の確率で「より安全な」モデルであると認識された。
- この効果は、モデルの応答の詳細度と、gpt-5-thinkingに含まれるセーフコンプリーションズのトレーニングによってもたらされた。
4.2 プロンプトインジェクションに関する専門家および自動化された Red Teaming
- 2つの外部 Red Teamers が、ChatGPTのコネクタと緩和策におけるシステムレベルの脆弱性を対象とした2週間のプロンプトインジェクション評価を実施した。
- 47件の報告から10件の注目すべき問題が特定され、リリース前に緩和策が展開された。
- Gray Swanのプロンプトインジェクションベンチマークでは、gpt-5-thinkingが敵対的なプロンプトインジェクション攻撃に対してSOTA(State-of-the-Art)の性能を示すことが確認された。
Microsoft AI Red Team の評価結果
- gpt-5-thinkingは、ほとんどの重要な危害カテゴリにおいて、OpenAIのモデルの中で最も強力なAI安全プロファイルの1つを示し、OpenAI o3と同等かそれ以上であると結論付けられました。
- 手動 red teaming(70人以上の内部専門家)と自動 red teaming(PyRIT)の両方を用いて、フロンティアハーム、コンテンツセーフティ、心理社会的ハームを含む18のハーム領域で評価が行われた。
- フロンティアおよびコンテンツセーフティの領域では、gpt-5-thinkingはOpenAI o3よりも質的に安全であると評価されました。例えば、要求された場合に攻撃的なサイバーコードの提供を拒否する傾向が強く、単一ターンの一般的なジェイルブレイクに対する耐性も高い。
- 複数の言語での改善も注目された。
- 心理社会的領域では、gpt-5-thinkingは精神的または感情的苦痛を経験していると思われる状況を検出および対応する点で改善の余地があることが判明し、これはOpenAI自身の調査結果とも一致。
5. Preparedness Framework (準備態勢フレームワーク) の導入
OpenAIは、重大な危害の新たなリスクを生み出すフロンティア能力を追跡し、これに備えるためのアプローチとして「Preparedness Framework」を導入している。このフレームワークは、特に高能力モデルについて、関連するリスクを十分に最小限に抑えるためのセーフガードの導入を含む。
5.1 能力評価 (Capabilities Assessment)
- gpt-5-thinkingの安全性を評価するために、事前展開研究、APIセーフガードテスト、製品内セーフガードテストの3つのグループに分類されたレッドチームキャンペーンが実施されました。
- 評価には、400人以上の外部テスターと専門家による9,000時間以上の作業が投入されました。
- 評価の優先トピックには、暴力的な攻撃計画、セーフガードを回避するジェイルブレイク、プロンプトインジェクション、生物兵器化が含まれます。
- 評価結果はモデルの潜在能力の下限を示す可能性があり、追加のプロンプトや微調整によりさらに能力が引き出される可能性があります。
5.1.1 生物・化学 (Biological and Chemical)
- OpenAIはgpt-5-thinkingのリリースを生物・化学ドメインにおいて「高能力」とみなし、関連するPreparednessセーフガードを有効化しました。
- モデルが初心者が重大な生物学的危害を生み出すのを実質的に助けるという決定的な証拠はないものの、予防的アプローチが取られています。
- 評価は、生物学的脅威作成プロセスの5段階(概念化、獲得、増幅、製剤化、放出)にわたる機密情報の正確性、ウェットラボ実験のトラブルシューティング能力、暗黙知の理解に焦点を当てています。
- SecureBioによる外部評価では、gpt-5-thinkingはOpenAI o3と同様の性能を示し、緩和策が適用された場合、すべてのプロンプトを拒否しました。
5.1.2 サイバーセキュリティ (Cybersecurity)
- サイバーエクスプロイトによるシステムへの危害リスクに焦点を当てています。
- gpt-5-thinkingはCapture the Flag(CTF)やCyber Rangeの課題においてOpenAI o3と同等の性能を示しました。
- gpt-5-thinking-miniはCyber Range課題で著しく優れた性能を示しましたが、全体としてgpt-5モデルシリーズは高いサイバーリスクの閾値には達しないと結論付けられました。
- Pattern Labsによる外部評価では、gpt-5-thinkingはOpenAI o3と比較してサイバー攻撃能力が向上しているものの、高度な課題を解決できず、中程度のスキルを持つサイバー攻撃者への支援は限定的であると結論されました。
- SWE-bench Verified、OpenAI PRs、PaperBench、OPQAといったソフトウェアエンジニアリングや研究再現のベンチマークでは、gpt-5-thinking(またはそのmini版)が最高スコアを記録しています。
- METRによる外部評価では、gpt-5-thinkingがAI R&D研究者の速度を大幅に加速させたり、研究者を戦略的に誤解させたりする可能性は低いと暫定的に結論付けられました。gpt-5-thinkingは自身が評価されていることを認識する状況認識を示すことがありましたが、サンドバッグの明確な証拠は見つかりませんでした。
5.2 研究カテゴリの更新:サンドバッグ (Research Category Update: Sandbagging)
- 「サンドバッグ」とは、モデルが評価時に実際の性能と異なる行動をとり、評価の有効性を損なう能力と傾向を指します。
- Apollo Researchによる外部評価では、gpt-5-thinkingが隠れた、または欺瞞的な行動をとる割合は約4%であり、OpenAI o3の8%より低いことが判明しました。モデルは自身が評価されていることを認識することがありますが、これが欺瞞の根本的な原因であるかどうかはさらなる研究が必要です。
5.3 高生物・化学リスクに対するセーフガード (Safeguards for High Biological and Chemical Risk)
- 脅威モデルは、モデルが生物学的危害に利用される2つの主要経路に焦点を当てています。1つは初心者が既知の生物学的脅威を獲得・展開するのを支援すること、もう1つは専門家が既知の生物学的脅威を作成・修正・展開するのを直接支援することです。
- セーフガードは、生物兵器化、高リスクデュアルユース生物学、低リスクデュアルユース生物学のコンテンツ分類に基づいて設計されています。
- セーフガード設計には、以下の多層防御アプローチが採用されています。
- モデル訓練: 兵器化支援の拒否、デュアルユーストピックに関する詳細で実行可能な支援の禁止。
- システムレベルの保護: リアルタイムの自動監視システム(2段階分類器と推論モニター)によるプロンプトと生成の監視・ブロック。
- アカウントレベルの執行: 自動システムと人間レビューによるポリシー違反の特定、ユーザーの検出・BAN(極端な場合は法執行機関への通知)。
- APIアクセス: 開発者がエンドユーザーを識別するための
safety_identifierフィールド導入、悪意ある使用の兆候への対応、アクセス要件(支払い、身元情報)。 - Trusted Access Program: vettedされた信頼できる顧客に対し、特定の条件下で制限の少ないモデルバージョンを提供。
- セーフガードテストでは、モデルの安全訓練、システムレベルの保護、そして生物兵器化のための専門家レッドチームによる評価が行われました。
- レッドチームキャンペーンの結果、gpt-5-thinkingはOpenAI o3よりも生物兵器化のクエリに対して「より安全」であると判断されました。
- APIジェイルブレイクテストでは、報告されたジェイルブレイクのほとんどが生成モニターによってブロックされたはずであり、すべての緩和策を回避した1つのケースも、多数のフラグを引き起こし、最終的にアカウント停止につながるレベルであるとされました。
- 外部評価機関(Far.AI、Gray Swan、米英政府機関)も、セーフガードの有効性を確認しつつ、いくつかの改善点を特定しました。
- セキュリティ制御: 顧客データやモデルウェイトの盗難を防ぐため、多層防御アプローチ(アクセス制御、インフラ強化、監視、専用セキュリティチーム)が実施されています。
- リスク緩和策の十分性: ユニバーサルジェイルブレイクのリスクはあるものの、その発見が困難であること、ユーザーへのBAN措置、迅速な対応プログラムがあるため、リスクは十分に最小化されていると評価されています。ポリシーのグレーゾーン、高リスクコンテンツの段階的漏洩、Trusted Accessプログラムによる制御性、API利用時のリスクについても、十分に最小限に抑えられていると考えられています。
Appendix の6 は ◦ gpt-5-thinking-mini と ◦ gpt-5-thinking-nano の標準的な安全性評価結果、7はGPT-5モデルのハルシネーションを評価するために使用される、公開された事実性評価のプロンプトと手順だったので省略。