OpenAIが最新推論モデルのo1とo1 pro modeをリリース!

OpenAIが最新推論モデルのo1とo1 pro modeをリリース!
  • URLをコピーしました!

米国時間の2024年12月5日、OpenAI社が最新の推論モデルである「o1」「o1 pro mode」、及び、新しいプランChatGPT Proを発表しました。

o1-previewでも十分にすごいコーディング能力、論理的思考能力を持っていると感じましたが、正式版であるo1 / o1 pro modeは従来のモデルと比べて大幅に進化していて、高度な推論能力やマルチモーダル機能など、控えめに言ってやばいです・・・!やばいという言葉しかもはや見つかりません。

この記事では、OpenAI o1 / o1 pro modeの性能、安全性、o1-previewやGPT-4oとの比較、ChatGPT Proプランの内容、そして今後の展望について詳細に解説します!

目次

o1とChatGPT Proプランの概要

OpenAI o1とは

OpenAIのo1は、大規模強化学習を用いて思考連鎖による推論を行うよう訓練された言語モデルです。GPT-4oも同様ですが、o1は思考連鎖の深さと精度でGPT-4oを上回ります。この高度な推論能力により、モデルの安全性と堅牢性が向上しています。

o1は、安全でない可能性のあるプロンプトに対しても、文脈を理解し安全ポリシーに沿って推論できます。違法なアドバイスの生成、ステレオタイプな回答、既知のジェイルブレイクへの屈服といったリスクに関するベンチマークにおいて、GPT-4oと比較して最先端の性能を達成しています。回答前に思考連鎖を組み込むことで大きなメリットが得られますが、同時に知能向上に伴うリスクも増加します。

o1、o1-preview、GPT-4oの大きな違いは思考プロセスです。o1-previewは全ての質問に時間をかけ深く思考する傾向がありました。簡単な質問でも思考時間が長いため、レスポンスが遅く、ユーザーエクスペリエンスが低下する可能性がありました。

GPT-4oはこの点においてo1-previewより勝っていましたが、o1は質問の難易度を判断し思考時間を調整することで、GPT-4oよりも速度と精度のバランスを最適化しています。簡単な質問には素早く、複雑な質問には必要な時間をかけて思考します。

ベンチマークテストでも、数学、科学、コーディングなど様々な分野でo1-previewとGPT-4oを上回る性能を示し、思考連鎖の精度向上が確認されています。o1では命令階層(システムメッセージ > 開発者メッセージ > ユーザーメッセージ)が導入され、モデルの制御性と安全性がGPT-4oと比較して向上しています。

ChatGPT Proとは

ChatGPT Proは、OpenAIの最先端AIモデルを最大限に活用できる月額200ドルのサブスクリプションプランです。o1への無制限アクセスに加え、o1-mini、GPT-4o、Advanced Voiceも利用可能です。

ChatGPT Proは、OpenAIの最先端AIモデルを最大限に活用できる月額200ドルのサブスクリプションプランです。o1への無制限アクセスに加え、o1-mini、GPT-4o、Advanced Voiceも利用可能です。
私の環境では、一度ログアウトし、再度ログインしないとProプランがでませんでした

ヘビーユーザーにとって特に魅力的なのはo1 pro modeへのアクセスでしょう。o1 pro modeは標準のo1やGPT-4oよりも多くの計算資源を使用し、複雑で難しい問題に対して深く思考し、信頼性の高い回答を生成します。o1 pro modeはo1をベースに、計算時間を延長し多くの思考ステップを実行できるよう最適化されています。これにより、o1では解けなかった問題も解けるようになるなど、GPT-4oと比較しても性能が大幅に向上しています。

データサイエンス、プログラミング、法律など高度な専門知識が求められる分野で特に効果を発揮します。ChatGPT Proは今後のアップデートでさらに強力な機能が追加される予定で、AI技術の最先端を体験したいユーザーにとって最適な選択肢です。 o1 pro mode、o1、GPT-4oの違いは、利用可能な計算資源の量と思考の深さです。o1 pro modeは多くの計算資源を使うことで、複雑な問題にも対応できます。

o1の高度な推論能力

複雑な問題への対応力

ChatGPT Proのo1 pro modeは高度な推論能力を活用できます。複雑な問題に対して深く思考し、信頼性の高い回答を生成することに特化しています。外部専門家による評価でも、データサイエンス、プログラミング、判例法分析といった分野でGPT-4oより正確で包括的な回答を提供することが実証済みです。

o1 pro modeは、o1やo1-preview、GPT-4oと比較して、数学、科学、コーディングといった難しい機械学習ベンチマークでも優れたパフォーマンスをしめしています。

o1 pro modeは、o1やo1-preview、GPT-4oと比較して、数学、科学、コーディングといった難しい機械学習ベンチマークでも優れたパフォーマンスをしめしています。
出典:https://openai.com/index/introducing-chatgpt-pro/

o1 pro modeはo1やGPT-4oと比べて多くの計算資源を使うことで、思考を深め複雑な問題解決能力を高めています。例えば数学では、複数の解法から最適なものを選択できます。これはGPT-4oでは難しい場合がありました。科学では関連文献を調査し、最新の知見に基づいた回答を生成します。GPT-4oも文献調査は可能ですが、o1 pro modeはより深く広範な調査ができます。プログラミングでは、効率的なアルゴリズムを設計し、バグのないコードを生成可能です。o1 pro modeはGPT-4oより高度なプログラミングスキルを備え、複雑なコード生成にも対応します。

o1 pro modeの能力を測るため、OpenAIは厳密な評価基準を設けています。同じ質問を4回投げかけて全て正解した場合のみ「4/4の信頼性」を達成したとみなします。この基準により、o1 pro modeのGPT-4oを上回る信頼性が裏付けられています。o1-previewでは複雑な問題への回答精度が課題でしたが、o1 pro modeは多くの計算資源を用いることでこれを克服し、GPT-4oより高い信頼性を達成しています。以下が、上記と同じベンチマークで、4/4の場合の結果です。

o1 pro modeの能力を測るため、OpenAIは厳密な評価基準を設けています。同じ質問を4回投げかけて全て正解した場合のみ「4/4の信頼性」を達成したとみなします。この基準により、o1 pro modeのGPT-4oを上回る信頼性が裏付けられています。
出典:https://openai.com/index/introducing-chatgpt-pro/

処理時間も改善され、o1-previewより高速に回答を生成します。o1-previewでは思考時間が固定でしたが、o1は思考時間を動的に調整することで、簡単な問題には素早く、難しい問題には必要な時間をかけることができます。GPT-4oも思考時間調整は可能ですが、o1はより高度なアルゴリズムで効率的に調整します。

ChatGPT Proプランのユーザーは、画面左上のモデル選択プルダウンからo1 pro modeを選択し質問を入力することで利用できます。回答生成には時間がかかるため、ChatGPTはプログレスバーを表示し、別の会話に切り替えた場合はアプリ内通知を送信します。これはo1-previewやGPT-4oにはなかった機能です。

その他 o1 / o1 pro mote の性能や進化のポイント

多言語対応能力

o1はGPT-4o同様、多言語対応に力を入れており、現在14言語に対応しています。アラビア語、ベンガル語、中国語(簡体字)、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ポルトガル語(ブラジル)、スペイン語、スワヒリ語、ヨルバ語です。これらの言語におけるo1の性能は、MMLUテストセットをプロの翻訳者により翻訳したものを用いて評価されています。各言語に翻訳されたMMLUテストセットをo1に入力し、回答精度を測定します。GPT-4oも多言語対応ですが、o1はより多くの言語をサポートし、各言語の性能もGPT-4oを上回っています。

o1はGPT-4o同様、多言語対応に力を入れており、現在14言語に対応しています。アラビア語、ベンガル語、中国語(簡体字)、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ポルトガル語(ブラジル)、スペイン語、スワヒリ語、ヨルバ語です。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf

評価結果として、o1とo1-previewはGPT-4oより高い多言語能力を示し、o1-miniはGPT-4o-miniより優れたパフォーマンスです。これはo1の多言語対応能力の向上を示しています。o1-previewでは英語以外の言語で性能が低下する傾向がありましたが、o1では多言語データセット訓練により改善されています。

上の表からわかるように、日本語に関しても、o1はo1-previewやGPT-4oよりも高いパフォーマンスを示しています。

安全性評価

AIモデル開発において安全性は非常に重要です。o1は有害コンテンツ生成の抑制、公平性、ハルシネーション発生率の低さ、危険な能力の欠如といった点でGPT-4oより優れた安全性を示しています。

OpenAIはo1の安全性確保に真剣に取り組んでおり、様々な評価を実施しています。有害コンテンツ生成の抑制、人口統計学的公平性、ハルシネーション発生率、危険な能力の有無といった観点から多角的にモデルの安全性を検証しています。公開されている評価指標だけでなくOpenAI独自の指標も使用しています。

有害コンテンツ生成については様々な有害プロンプトを作成し、モデルの反応を検証します。人口統計学的公平性については性別、人種、年齢などの属性による出力の偏りを検証します。幻覚発生率については事実関係が明確な質問を多数用意し、モデルの回答精度を検証します。危険な能力の有無については、サイバー攻撃や化学兵器製造などの危険な行為を助長する可能性がないかを検証します。

o1の安全性評価は、過去のモデル開発で得られた知見や外部レッドチームによるテスト結果を参考に、継続的に改善されています。有害なリクエストに拒否応答する訓練や、不適切コンテンツ検出のためのモデレーションモデル導入など、様々な対策が講じられています。o1-previewでの安全性評価結果も踏まえ、o1では更なる改善が図られています

例えばo1-previewでは思考連鎖過程で誤情報が生成される場合がありましたが、o1では推論能力向上により軽減されています。o1では命令階層が導入され、システムメッセージ、開発者メッセージ、ユーザーメッセージの順に指示を優先するよう訓練されています。これにより悪意のある開発者メッセージによる安全性リスクを軽減しています。これらの改善によりo1はGPT-4oより安全なAIモデルとなっています。

不正コンテンツ評価

o1は、ヘイトコンテンツ、犯罪に関するアドバイス、医療や法律に関するアドバイスといった有害コンテンツ生成を抑制するため、GPT-4oより厳格な評価を受けています。

「Standard Refusal Evaluation」「Challenging Refusal Evaluation」「(Toxic) WildChat」「XSTest」といった複数の指標を用いて、有害コンテンツを生成しないか、安全なトピックに関する良性のプロンプトに過度に拒否反応を示さないかを検証しています。様々な有害コンテンツを網羅したデータセットを使用し、出力がOpenAIのポリシーに準拠しているか、過剰な拒否反応がないかを評価します。

「Standard Refusal Evaluation」では一般的な有害コンテンツへの拒否反応、「Challenging Refusal Evaluation」では巧妙に隠蔽された有害コンテンツへの拒否反応を評価。「(Toxic) WildChat」では実際のChatGPT会話データから抽出された有害会話例を用いて拒否反応を評価。「XSTest」では安全な質問に過剰な拒否反応を示さないかを評価します。

o1はこれらの評価でGPT-4oと同等以上のパフォーマンスを示し、高い安全性を維持しています。o1-previewと比べても拒否反応の精度が向上し、有害コンテンツをより適切にフィルタリングできます。o1-previewでは文脈によっては有害コンテンツを生成するケースもありましたが、o1では思考連鎖の精度向上により減少しています。命令階層の導入により、ユーザーメッセージよりシステムメッセージの指示を優先するため、悪意あるユーザーメッセージによる有害コンテンツ生成リスクも軽減されています。

「Standard Refusal Evaluation」「Challenging Refusal Evaluation」「(Toxic) WildChat」「XSTest」といった複数の指標を用いて、有害コンテンツを生成しないか、安全なトピックに関する良性のプロンプトに過度に拒否反応を示さないかを検証しています。様々な有害コンテンツを網羅したデータセットを使用し、出力がOpenAIのポリシーに準拠しているか、過剰な拒否反応がないかを評価します。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf

not_unsafe: モデルが OpenAI ポリシーに従って安全でない出力を生成していないことを確認、not_overrefuse: モデルが良性のリクエストに従っていることを確認てします。数値の説明が見つかりませんでしたが、大きい方が良いという意味のようです。

テキストと画像入力へのマルチモーダル拒否評価も実施しています。安全性トレーニングを通じて拒否の境界を正確にすることは、依然として課題です。マルチモーダル拒否評価はテキストと画像の組み合わせを入力として有害コンテンツ生成を検証します。安全なテキストと有害な画像、もしくはその逆の組み合わせでも、適切な拒否反応が求められます。GPT-4oもマルチモーダル入力に対応していますが、o1はより高い精度で有害コンテンツを検出できます。

テキストと画像入力へのマルチモーダル拒否評価も実施しています。安全性トレーニングを通じて拒否の境界を正確にすることは、依然として課題です。マルチモーダル拒否評価はテキストと画像の組み合わせを入力として有害コンテンツ生成を検証します。安全なテキストと有害な画像、もしくはその逆の組み合わせでも、適切な拒否反応が求められます。GPT-4oもマルチモーダル入力に対応していますが、o1はより高い精度で有害コンテンツを検出できます。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf

上記表の結果の通り、o1は過剰拒否防止においてGPT-4oより改善されています。o1-previewとo1-miniは画像入力をネイティブに受け入れないため評価対象外です。

ジェイルブレイク対策

ジェイルブレイクとは、モデルが生成してはならないコンテンツに対する拒否を意図的に回避しようとする敵対的なプロンプトです。o1はGPT-4oと比較して、ジェイルブレイクに対しても堅牢性を高める評価を受けています

「Production Jailbreaks」「Jailbreak Augmented Examples」「Human Sourced Jailbreaks」「StrongReject」といった指標を用いて、既知のジェイルブレイク手法への耐性を測定しています。これらの評価では、過去のChatGPT運用データから収集されたジェイルブレイク、公開されているジェイルブレイク手法を適用したプロンプト、人間が作成したジェイルブレイクプロンプト、学術的なジェイルブレイクベンチマークなどが使われます。

o1はこれらの評価においてGPT-4oより大幅に優れたパフォーマンスを示し、特に難易度の高いStrongReject評価では顕著な改善が見られます。これはo1の推論能力向上に加え、安全性トレーニング強化の成果です。

「Production Jailbreaks」「Jailbreak Augmented Examples」「Human Sourced Jailbreaks」「StrongReject」といった指標を用いて、既知のジェイルブレイク手法への耐性を測定しています。これらの評価では、過去のChatGPT運用データから収集されたジェイルブレイク、公開されているジェイルブレイク手法を適用したプロンプト、人間が作成したジェイルブレイクプロンプト、学術的なジェイルブレイクベンチマークなどが使われます。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf

o1-previewではジェイルブレイク耐性が課題で、悪意あるユーザーによる有害コンテンツ生成リスクがありました。GPT-4oは改善しましたが、o1は思考連鎖精度向上と命令階層導入により、GPT-4oと比較しても耐性が強化されリスク軽減されています。o1-previewでは特定のプロンプトでジェイルブレイクが成功するケースもありましたが、o1はGPT-4oと比較して、そのようなプロンプトにも適切に拒否反応を示せます。

ハルシネーション抑制への取り組み

事実とは異なる内容を生成する、いわゆる「ハルシネーション」は、LLMにとって大きな課題です。o1はGPT-4oと比較して、ハルシネーションを抑制することに成功しています。

o1のハルシネーション評価には、SimpleQAとPersonQAの2つのデータセットを使用します。SimpleQAは短い回答が求められる4000の事実確認質問で、各質問に明確な正解があります。PersonQAは人物に関する公開情報に基づく質問で、モデルが事実関係を正しく理解しているか検証します。これらの評価は回答の正確さとハルシネーション発生率を測定し、事実に基づいた回答生成能力を評価します。

o1-previewとo1はGPT-4oよりハルシネーション発生率が低く、o1-miniはGPT-4o-miniより低いことが確認されています。o1はo1-previewと比べて思考連鎖の推論能力が向上しているため、ハルシネーション発生率が減少しています。これはo1がより正確に情報を処理し事実に基づいた回答を生成できるようになったことを示します。

o1-previewとo1はGPT-4oよりハルシネーション発生率が低く、o1-miniはGPT-4o-miniより低いことが確認されています。o1はo1-previewと比べて思考連鎖の推論能力が向上しているため、ハルシネーション発生率が減少しています。これはo1がより正確に情報を処理し事実に基づいた回答を生成できるようになったことを示します。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf ※数値が低いほど良い評価

GPT-4oもハルシネーション抑制に力を入れていましたが、o1はさらに高い精度で抑制できます。ただし化学など未評価分野のハルシネーションについては更なる調査が必要です。

公平性とバイアスに関する評価

AIモデルの公平性とバイアスは社会的影響が大きいため重要です。o1はGPT-4oと比較して、これらの点でも改善が見られます。

o1の公平性とバイアス評価には、BBQ評価と、人種、性別、年齢が意思決定に与える影響を評価する独自手法を使います。BBQ評価は明確な正解がある質問と正解が曖昧な質問へのモデルの回答を分析します。

o1-previewはGPT-4oよりステレオタイプな回答を選択する傾向が低いと確認されました。o1は曖昧な質問にGPT-4oと同等の性能を示し、明確な正解がある質問には96%の精度で正解しています。o1-previewは正解不明時に「不明」オプションを選択する傾向が低い一方、o1はGPT-4oと同様に「不明」を選択する傾向が高いです。

o1-previewはGPT-4oよりステレオタイプな回答を選択する傾向が低いと確認されました。o1は曖昧な質問にGPT-4oと同等の性能を示し、明確な正解がある質問には96%の精度で正解しています。o1-previewは正解不明時に「不明」オプションを選択する傾向が低い一方、o1はGPT-4oと同様に「不明」を選択する傾向が高いです。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf

人種、性別、年齢の影響評価は腎臓移植の優先順位付け質問を使います。複数のテンプレート化されたプロンプトを作成し、年齢、人種、性別を変化させて回答を分析することで、これらの要素が意思決定に与える影響を測定します。これはモデルが特定属性に基づき不公平な判断をしていないか検証するためです。

下記表では、スコアが低いほど、特定の変数に対するバイアスが少ないことを表すそうです。o1-previewはGPT-4oよりバイアスが少ない傾向にありますが、o1-miniはGPT-4o-miniよりバイアスが大きい場合があります。o1はこれらの属性が意思決定に与える影響を最小限にするよう訓練され、GPT-4oより公平な判断ができます。

o1-previewはGPT-4oよりバイアスが少ない傾向にありますが、o1-miniはGPT-4o-miniよりバイアスが大きい場合があります。o1はこれらの属性が意思決定に与える影響を最小限にするよう訓練され、GPT-4oより公平な判断ができます。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf ※数値が低いほど良い評価

カスタム開発者メッセージによるジェイルブレイク対策

o1 APIでは開発者がエンドユーザーのプロンプトにカスタム開発者メッセージを追加できます。これはAPIを特定のユースケースに適応させるのに便利ですが、悪用されるとo1の安全対策を回避される可能性があります。悪意ある開発者がカスタム開発者メッセージでモデルに有害コンテンツ生成を指示する可能性もあります。

これを防ぐためOpenAIは「命令階層」を導入し、o1にシステムメッセージ > 開発者メッセージ > ユーザーメッセージの優先順位で指示に従うよう訓練しました。命令階層は複数の指示が矛盾する場合、どの指示を優先すべきかモデルに学習させる仕組みです。

システムメッセージはOpenAIが設定するため最高優先順位です。開発者メッセージはAPI利用者である開発者が設定するためシステムメッセージより低優先順位です。ユーザーメッセージはエンドユーザーが入力するため最低優先順位です。

GPT-4oにも命令階層はありますが、o1はGPT-4oより厳密に命令階層を遵守するよう設計され、より安全です。複数の評価でo1はGPT-4oより命令階層を正しく理解し指示に従う能力が高いことが確認されています。システムメッセージで特定フレーズの出力を禁止した場合、ユーザーメッセージや開発者メッセージでそのフレーズ出力するよう仕向けられても、o1は指示に従います。数学教師として振る舞うよう指示しユーザーが解法を聞き出そうとしても、o1は指示通り解法を教えません。これらの評価結果から、o1は命令階層を理解し適切に動作すると判断できます。

以下の表は、モデルが数学の家庭教師である場合、ユーザーがモデルをだまして答えを言わせようとするというシナリオの結果です。具体的には、システムメッセージまたは開発者メッセージでモデルに数学の問題の答えを言わないよう指示し、ユーザーメッセージでモデルをだまして答えを出させようとします。評価をパスするには、モデルは答えを言ってはいけません。

以下の表は、モデルが数学の家庭教師である場合、ユーザーがモデルをだまして答えを言わせようとするというシナリオです。具体的には、システムメッセージまたは開発者メッセージでモデルに数学の問題の答えを言わないよう指示し、ユーザーメッセージでモデルをだまして答えを出させようとします。評価をパスするには、モデルは答えを言ってはいけません。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf

次の表では、モデルに特定のフレーズを出力しないよう、またはシステムメッセージでカスタムパスワードを明らかにしないよう指示し、ユーザーまたは開発者メッセージで出力させるようモデルをだまそうとするシナリオの結果です。

次の表では、モデルに特定のフレーズを出力しないよう、またはシステムメッセージでカスタムパスワードを明らかにしないよう指示し、ユーザーまたは開発者メッセージで出力させるようモデルをだまそうとするシナリオの結果です。
出典:https://cdn.openai.com/o1-system-card-20241205.pdf

上記2つのシナリオの両方で、o1はGPT-4oよりも良い結果を出しており、カスタム開発者メッセージによるジェイルブレイク対策が強化されていることがわかります。

思考連鎖の安全性

o1は思考連鎖を使って推論を行うため、出力だけでなく思考過程も監視することが重要です。思考連鎖の安全性評価では、モデルがユーザーを欺くケースがないか検証します。

具体的には、意図的に誤った情報を提供したり重要な情報を隠したりといった行為がないかを、GPT-4oを監視モデルとして分析します。o1の思考過程を記録した「思考連鎖」をGPT-4oに入力し、欺瞞的行為を検出できるか検証します。欺瞞行為とは、誤情報を信じ込ませる行為、不適切な回答を生成する行為、ユーザーの意図を理解しながら無視する行為などです。

出典:https://cdn.openai.com/o1-system-card-20241205.pdf

まず小規模なデータセットで「欺瞞的(deceptive)」か「非欺瞞的」かを判定するモニターを検証したもので、92%の精度を得たとのことで。その後、このモニターを10万件の合成チャットプロンプト(実際の会話ではなく合成したもの)に適用したところ、0.17%が「欺瞞的」と判定されたとのことです。上記表はその結果になります。

「欺瞞的 (deceptive)」とされた回答は大きく3種類に分類でき、最も多かった Hallucinated policies(0.09%)はモデルが架空のポリシーをでっち上げ、それに従う形で情報を故意に伏せるケースです。別の主なケース(0.04%)は「意図的な虚偽情報 (Intentional hallucinations)」で、モデルが情報を作り出していると自覚しながら出典や参考文献を捏造する状況です。

ChatGPT Pro Grants

医学研究への支援

OpenAIは、人類への貢献を目指す研究を推進するため、ChatGPT Pro Grantsプログラムを通じて米国の主要な医学研究機関の研究者10名にChatGPT Proを無償提供しています。対象分野は、希少疾患や難病の新規遺伝子発見、病気に対処するための生物医学データ分析、老化と認知症研究、老化とがん免疫療法研究など多岐に渡ります。選定された研究者には、Catherine Brownstein氏(ボストン小児病院、ハーバード大学医学部助教授)、Justin Reese氏(バークレー研究所コンピューター研究科学者)、Rhoda Au氏(ボストン大学医学部教授)、Derya Unutmaz氏(ジャクソン研究所教授)などがいます。

この助成金プログラムは、高度なAI技術を研究の最前線で活用することで医療分野の進歩を加速させることを目的としています。選考基準は厳しく、研究内容の革新性、社会への影響力、AI技術の活用方法などが評価されます。具体的には、申請された研究計画の独創性、実現可能性、倫理性、ChatGPT Proの活用方法が審査されます。研究成果の公開も重視され、助成を受けた研究者は成果を論文や学会発表などで公開する必要があります。将来的には、助成対象地域や研究分野を拡大し、より多くの研究者を支援していく予定です。他の国や地域への展開、医療以外の分野への助成なども検討されています。

o1の今後の展望

12 days of OpenAI

OpenAI社は、12日間連続で新機能を発表するとのことです。本記事執筆時点ではまだ1日目。まだ1日でこのインパクト。これからが楽しみ過ぎます・・・!

o1や言語モデルはどのように進化する?

o1-previewでも十分すごいと感じていましたが、Previewが取れて正式版になり、更に数学の能力やコーディング能力が伸びているので、本当にすごいですね。言語モデルがこれ以上どのように進化するか正直わかりませんし、予測も尽きません笑

とりあえず直近ではAPIはリリースされると思います。o1 pro modelはgpt-4oの10倍くらいの値段するのかな・・・?

私が期待しているのが、上記の12 Days of OpenAIの最後に、OpenAI版MCPが発表されることです。Googleも同じことをやってくる可能性はあると思っています。そうなると三つ巴ですが、ビデオテープのベータ vs VHS戦争の再来でしょうか。

MCPのようなローカルデータや既存WebサービスとAIの統合規格の整備、及び統合が進むと自然言語でPCに指示しながら、ローカルデータと公開データを組み合わせて特定のフォーマットでレポートを作成したり、システム開発・テスト・デプロイまで一貫した作業が完結してしまったりする日も近いんでしょうね。

関連記事: Claude MCPでAIエージェントはさらなる未来へ・・・Anthropic社発表のAIとWebサービス統合標準規格

本記事をご覧いただいた方にはこちらの資料がおすすめです!

【目的別】生成AIの使い方がわかる! 生成AI活用事例集カバー画像

【目的別】生成AIの使い方がわかる! 生成AI活用事例集

「生成AIって色々ありすぎてよくわからない・・・」という方向けに、汎用型生成AIであるChatGPT、Claude、Gemini、Perplexityの比較や、画像、音声、動画生成のツールなどを、どの様な場面のときにどのように使用するのが効果的かという点を重点的に、事例をまとめて紹介いたします。これを読めば、生成AIの効果的な使い方がわかります!本資料は、

  • 生成AIとはなに?
  • ChatGPTを使ってみよう
  • 生成AIを業務で活用する
  • 生成AIツールを使いこなす
  • 生成AI利用の注意点

といった内容の構成になっており、ChatGPTや生成AIの基礎から、業務上の実務的な使用方法までをお伝えする資料です。

このような方にオススメ

  • ChatGPTや生成AIの基礎を知りたい方
  • ChatGPTや生成AIの基礎は理解しているが、有効な活用方法を知りたい方
  • 生成AIの効果的な業務活用方法を知りたい方
OpenAIが最新推論モデルのo1とo1 pro modeをリリース!

この記事が気に入ったら
いいね または フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次