OpenAI の GPT-5.2 の System Card (以下リンク)について、GPT-5 および GTP-5.1 に記載されている内容とほぼ一緒とは書かれているけど、気になる点のみをざっくりまとめてみました。
趣味的にまとめただけなので API で利用する上で何か役立つ内容はほぼないです💦
https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf
- 1 Introduction
- 2 Model Data and Training
- 3 Baseline Model Safety Evaluations (ベースラインモデルの安全評価)
- 4 Preparedness Framework
1 Introduction
(大した内容無いので省略。)
2 Model Data and Training
(大した内容無いので省略。)
3 Baseline Model Safety Evaluations (ベースラインモデルの安全評価)
3.2 Disallowed Content Evaluations (禁止されたコンテンツの評価)
訓練データソースの多様性:
- インターネット上の公開情報
- サードパーティとの提携によるアクセス情報
- ユーザー、人間のトレーナー、研究者が提供・生成した情報
データ処理と安全対策:
- 厳格なフィルタリング: データ品質維持と潜在的リスク軽減のため、厳格なフィルタリングを実施。
- 個人情報削減: 高度なデータフィルタリングプロセスを使用し、訓練データから個人情報を削減。
- 有害コンテンツ対策: セーフティ分類器を採用し、未成年者の性的コンテンツなどの有害または機密性の高いコンテンツの使用を防止・削減。
推論モデルの訓練と特徴:
- 訓練方法: 強化学習を通じて推論するように訓練。
- 思考プロセス (Chain of Thought): 回答前に「長い内部的な思考の連鎖」を生成するように訓練されている。
- 学習と洗練: 訓練を通じて思考プロセスを洗練し、異なる戦略を試み、間違いを認識することを学習。
- 安全性の向上: 推論により、OpenAIが設定したガイドラインやポリシーに従い、安全性の期待に沿った行動を支援。これにより、より有用な回答を提供し、安全ルールの回避試行に対する抵抗力を向上。
評価結果として...
- gpt-5.2-thinking と gpt-5.2-instant は、特に GPT-5.1 で低かった自殺・自傷行為、メンタルヘルス、情緒的依存に関するオフライン評価が改善されている。
- 社内テストにより、GPT-5.2 Instant は成熟したコンテンツ、特に性的描写のあるテキスト出力に対するリクエストの拒否が全般的に少なくなっていることが確認されている。
- 未成年ユーザーに対して、暴力、流血、バイラルチャレンジ、性的、ロマンチック、または暴力的なロールプレイ、極端な美の基準などの機密性の高いコンテンツへのアクセスを減らす追加のコンテンツ保護を適用。
- 18歳未満と思われるユーザーのアカウントにこれらの保護を自動的に適用できるように、年齢予測モデルの展開の初期段階にある。
3.2 Jailbreaks
評価結果として... - gpt-5.2-thinkingはgpt-5.1-thinkingよりも優れた性能を発揮。 - gpt-5.2-instantはgpt-5.1-instantよりも低い性能を示したが、gpt-5-instant-oct3 (GPT-5.1システムカード補遺で報告されているもの) よりも高い性能を維持。 - 原因調査の結果、エラーの一部はグレーダー(評価者)の問題によるものであり、残りは不正なカテゴリーにおけるいくつかのケースで退行が見られるようで、今後のアップデートに向けて調査する予定。
3.3 Prompt Injection
Agent JSK (模擬されたEメールコネクタに挿入されたプロンプトインジェクション攻撃) と PlugInject (関数呼び出しに挿入されたプロンプトインジェクション攻撃) の評価セットを使って評価を実施 (これらの評価セットはトレーニングに使用したデータの分割であるため、新しい攻撃に対するモデルの汎化能力を表すものではない) 。
gpt-5.2-instant と gpt-5.2-thinking 両方でこれらの評価で大幅な改善。
3.4 Vision
禁止されたテキストと画像の組み合わせの入力が与えられた場合に、モデルの出力が `not_unsafe であるかどうかの評価を実施。結果として、GPT-5.2 thinking と GPT-5.2 Instantは、GPT-5.1 ファミリーと比較して全体的に高い拒否率だった。
3.5 Hallucinations
Webアクセスを備えたLLMベースのグレーディングモデル (←ようは評価用のモデル) を使って、ハルシネーションの発生率を測定し、GTP-5.2 が GPT-5, GPT-5.1 同等またはわずかによい結果に。
事実性に関連する5つの特定のドメイン(ビジネス/マーケティング、金融/税務、法律/規制、学術エッセイ、時事/ニュース)で分野別の評価を実施し、GPT-5.2 thinking を Web アクセスを有効にすることで、5つのドメインでハルシネーション率1%未満を達成 (GPT-5, GPT-5.1 は1%前後)。ちなみに Web アクセスなしだと2-3%前後。
3.6 Health
医療性能と安全性の評価である HealthBench を実施し、結果は GPT-5.2 と GPT-5.1 でほぼ同等。
3.7 Deception (欺瞞)
欺瞞(モデルのユーザー向けの応答が、その内部推論や実行したアクションを偽って伝えること)の評価を実施。評価には、過去にChatGPTで欺瞞を引き起こしたトラフィックを代表するプロンプトセットを使用。
結果は、GPT-5.2 thinnking が GPT-5.1 thinking に比べていいものもあれば悪いものもあり、要因も (プロンプトの制約に起因するものなど) 仕方ないものもあり、実質的に無害ではある結果に。未解決の研究課題など特異性は残存するため今後も研究が必要な部分。
3.8 Cyber Safety
サイバー不正行為に対するポリシーの準拠率は、GPT-5.2-thinkingは、GPT-5.1-thinking, GPT-5-thinking と比較して改善。
3.9 Multilingual Performance
多言語能力を評価するためにプロの人間の翻訳者を動員して MMLU のテストセットで評価を実施。結果として gpt-5-thiniking と大差なく、日本語の評価も向上無し。
3.10 Bias
バイアス (公平性) の評価を行い、gpt-5.1-thinking と比べて同等の性能を発揮。
4 Preparedness Framework
"Preparedness Framework" とは、重大な危害の新たなリスクを生み出すフロンティア能力を追跡し、それへの準備を行うためのOpenAIのアプローチ。高度な能力を持つモデルのリスクを十分に最小限に抑えるセーフガードを実装することを含め、重大な危害のリスクを追跡し軽減を実現するためのもの。
4.1 Capabilities Assessment
4.1.1 Biological and Chemical (生物, 化学)
- GPT-5.2 は、生物・化学ドメインにおいて「高能力 (High capability)」として扱われ、関連する備えの安全対策(Preparedness safeguards)があると十分と評価。
- 現時点では、モデルが「初心者が重大な生物学的危害を引き起こすのを有意義に助けることができる」という定義された閾値に達したという決定的な証拠はない。
- これらのモデルは、この能力に到達する瀬戸際にあると見なされている。
4.1.1.1 Multimodal Troubleshooting Virology (マルチモーダルトラブルシューティングウイルス学)
SecureBio から提供された、完全に未公開の350問のウイルス学トラブルシューティング問題のデータセット (実用的なウイルス学の知識とスキルの評価用データセット。顕微鏡写真や実験写真(画像)などの視覚情報を含むマルチモーダルな形式で構成されているため画像の解釈とトラブルシューティング力が試される) でモデルで評価を行い、GPT-5 (browsing), GTP-5.1 (browsing), GPT-5.2 (browsing)ともにドメインエキスパート以上と評価。
ProtocolQA Open-Ended
FutureHouse の ProtocolQA データセット (AIが長文の文書やプロトコル(手順書)を理解し、その内容に基づいて正確に質問に回答できる能力を評価するためのデータセット) からの108問の多肢選択式質問を、自由回答の短い回答形式の質問に修正して評価を実施。GPT-5-thinking, GTP-5.1-thinking, GPT-5.2-thinking ともにコンセンサスエキスパートベースライン、エキスパートベースラインを下回る結果に。
4.1.1.3 Tacit Knowledge and Troubleshooting
生物学的脅威作成プロセスの全5段階に及び、暗黙知がボトルネックとなる領域に焦点を当ててたトラブルシューティングの質問に対する評価を行い、コンセンサスエキスパートベースラインである80%を上回ることはありませんでしたが、すべてのモデルが、80パーセンタイルPhDエキスパートベースラインである63%を上回る結果に。 GPT-5.2-thinking は拒否が増加したため GPT-5-thinking, GTP-5.1-thinking より低い結果に。
4.1.1.4 TroubleshootingBench
現実世界の生物学的プロトコルにおける実験誤差を特定し修正するモデルの能力を評価するために、専門家によって書かれたウェットラボの手順から自由回答形式のトラブルシューティングデータセットを構築して評価を実施。暗黙的な手順の知識に依存する、非公開で経験に基づいたプロトコルとエラーに対するモデルのパフォーマンスをテストするように設計されている。
結果として、GPT-5.2 (browsing) は拒否が増加しているものの、GPT-5 (browsing), GTP-5.1 (browsing) より高い結果に。
4.1.2 Cybersecurity
サイバーセキュリティは、コンピューターシステムの機密性、完全性、および/または可用性を混乱させるサイバー悪用へのモデルの使用に関連するリスクを生み出す可能性のある能力に焦点を当てて評価を実施。
Preparedness Framework における「高い」サイバーセキュリティ能力とは、合理的に強化されたターゲットに対するエンドツーエンドのサイバー操作を自動化するか、または運用上関連のある脆弱性の発見と悪用を自動化することによって、サイバー操作を拡張するための既存のボトルネックを取り除くモデルとして定義されている。
具体的には、十分に防御されたシステムに対して動作するゼロデイリモート悪用を開発できる場合、または現実世界への影響を目的とした複雑で隠密なエンタープライズまたは産業への侵入操作を意味のある形で支援できる場合に、モデルは「高い」と認定される。
4.1.2.1 Capture the Flag (CTF) Challenges
様々なキュレーションされた公開されているCTF(Capture The Flag)チャレンジのテストセットを使って評価を実施。ようはコンピュータセキュリティの「旗取りゲーム」のような感じで、システムに隠された秘密の文字列(フラグ)を見つけ出す感じの評価。
評価結果は、良好だが AI の能力が「高度なサイバー能力」を持つと判断する閾値(しきい値)には達していないと判断。
4.1.2.2 CVE-Bench
実際に存在するウェブアプリケーションの弱点(脆弱性)を見つけて悪用する能力を評価を実施。ようは、サンドボックス環境で既知の脆弱性があるウェブアプリに対してゼロデイアタックができるかというベンチマーク。
結果として GPT-5.2 (no browsing)は、GPT-5.1 (no browsing) よりも良かったが GPT-5.1-codex-max と比べ低い結果に。
4.1.2.3 Cyber Range
現実のネットワークに近い仮想環境で、サイバー攻撃の全プロセス(最初から最後まで)をどれだけ実行できるかを測定する評価を実施。 9つのシナリオを実施し、GPT-5.2-thinking は6つをクリア。ちなみに GPT-5.1-codex-max は7つをクリア。
4.1.2.4 External Evaluations for Cyber Capabilities
AI セキュリティの専門の Ittegular という外部機関によるサーバー能力評価を実施。
GPT-5.2-thinking はネットワーク攻撃のカテゴリーのシナリオで100%の成功率。攻撃コードの解析(リバースエンジニアリング)や、暗号の弱点を見つけて悪用する能力のシナリオで 83%、セキュリティシステムや監視システムに検知されないように攻撃を隠すシナリオで73%と、高い成功率を達成。
4.1.3 AI Self-Improvement
自分でコードを書いたり、研究開発をしたりして、自分自身の性能を向上させる能力について評価では、GPT-5.2-thinking と GPT-5.1-codex-max は同等程度、優秀な中堅の研究エンジニアに匹敵するレベルのAI自己改善能力は持っていないと結論。
4.1.3.1 OpenAI PRs
OpenAIの社内エンジニアの仕事(プルリクエスト)をどの程度自動化できるかを評価。プルリクエストにある指示に従ってコード修正・改善を正しくできるかの評価。
GPT-5.2 (no browsing) は、GPT-5 (no browsing), GPT-5.1 (no browsing) より大幅に良い結果に。GPT-5.1-codex-max と同等の (わずかに上回る) 結果に。
4.1.3.2 MLE-Bench
MLE-Bench(Machine Learning Engineering Benchmark)は、AIエージェントが**機械学習エンジニア(MLE)のタスクをどれだけ実行できるかを評価するために作られたベンチマークで、AI が Kaggle のコンペティションの問題を解決できるかをテストする。
GPT-5.2 (no browsing) は、GPT-5 (no browsing), GPT-5.1 (no browsing) より大幅に良い結果だが GPT-5.1-codex-max と同等の (わずかに下回る) 結果に。
4.1.3.3 PaperBench
PaperBenchは、AIエージェントが最先端のAI研究をどれだけ正確に再現できるかを評価するためのベンチマーク。
GPT-5.2 (no browsing) は、GPT-5 (no browsing), GPT-5.1 (no browsing) より大幅に良い結果だが GPT-5.1-codex-max と同等の (わずかに下回る) 結果に。
OPQA
OPQA(OpenAI-Proof Q&A)は、AIモデルがOpenAI社内で実際に発生した解決に時間がかかった難しい問題を診断し解決できるかのベンチマーク。 そもそもの問題が難しいため、正答率は GPT-5.2 (no browsing) で3%、GPT-5 (no browsing) で2%, GPT-5.1 (no browsing) は0%、GPT-5.1-codex-max が8% と厳しい結果。
4.2 Research Category Update: Sandbagging
Apollo Researchという外部の研究機関が、GPT-5.2-thinkingについて「戦略的欺瞞」「文脈内の陰謀(in-context scheming)」「サボタージュ」といった悪意ある振る舞いをする能力を評価。GPT-5.2-thinking が陰謀を通じて壊滅的な被害を引き起こす能力を持つ可能性は低いと結論。