Gemini-exp-1114：ベンチマークでGPT-4o超え？詳細と評価、使い方を徹底解説

November 19, 2024December 8, 2024

URLをコピーしました！

こんにちは、スクーティー代表のかけやと申します。

弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。

Gemini-exp-1114 が登場し、LLM 界隈が賑わっています。Chatbot Arena のベンチマークで一位を獲得し、GPT-4o を超えたという報告に、期待が高まっている方も多いのではないでしょうか。

しかし、その一方で、従来のベンチマークテストは AI の真の能力を測るのに適切ではないという意見も出ています。一体 Gemini-exp-1114 とはどのようなモデルで、その実力はどれほどのものなのでしょうか？

新たなモデルが登場する度に、期待と同時に、本当に使えるのか、以前のモデルの問題点は改善されているのか、といった疑問が湧いてきます。Gemini-exp-1114 を深く理解し、その可能性と限界、そして使い方を把握したいと思いませんか？

この記事では、Gemini-exp-1114 の詳細な評価、ベンチマーク結果、そして具体的な使用方法まで、専門家向けに徹底的に解説します。

1. Gemini-exp-1114の概要

1.1 Gemini-exp-1114とは？

Gemini-exp-1114 は、Google がリリースした実験的な大規模言語モデル (LLM) です。主な目的はフィードバック収集と、開発者向けに最新の進歩へのアクセスを迅速に提供することにあります。これは Google の AI 技術における継続的な革新を強調するものでもあります。

Gemini-exp-1114 は、Google AI Studio を通じて利用できますが、実験的モデルであるため、予告なく他のモデルに置き換えられる可能性があります。そのため、本番環境での使用は推奨されていません。将来的に安定版モデルに移行する保証もありません。Google は、実験モデルを通じて得られたフィードバックを基に、Gemini シリーズの更なる開発と改良を進めていく方針です。

Gemini-exp-1114 のアーキテクチャは、Transformer ベースのデコーダ専用モデルであり、数十億のパラメータでトレーニングされています。詳細な技術仕様は公開されていませんが、膨大なテキストとコードのデータセットでトレーニングされ、多様なタスクに対応できることが示唆されています。

例えば、テキスト生成、翻訳、質問応答、コード生成など、様々なタスクで高い性能を発揮することが期待されています。さらに、Gemini-exp-1114 は、マルチモーダルな理解能力も備えており、画像や音声などの入力にも対応できる可能性があります。

1.2 Gemini実験モデルシリーズの位置づけ

Gemini 実験モデルは、Google が開発を進めている Gemini シリーズの、実験段階にある LLM です。これらのモデルは、最新の研究成果をいち早く開発者コミュニティに提供し、フィードバックを収集することを目的としてリリースされています。

Gemini 実験モデルシリーズには、様々なバリエーションが存在し、それぞれ異なるパラメータ数や学習データセットでトレーニングされています。例えば、コード生成に特化したモデルや、多言語対応モデルなどが存在します。Google は、これらの実験モデルを通じて、様々なユースケースにおける性能と安全性を検証し、将来の Gemini モデルの開発に役立てています。

さらに、開発者はこれらの実験モデルを利用することで、最新のAI技術に触れ、将来のアプリケーション開発に役立つ知見を得ることができます。また、Googleへのフィードバック提供を通じて、Geminiの開発に貢献することも可能です。

直近にリリースされた、他の言語モデルに関しては、こちらの記事を御覧ください！

関連記事：Llama 3.2 の概要：マルチモーダル／オンデバイス対応モデル

2. Gemini-exp-1114の性能評価

2.1 LMArenaの概要とリーダーボードの見方

LMArena（別名 Chatbot Arena）は、LLM を評価するためのオープンソースプラットフォームです。

LMSYS と UC Berkeley SkyLab のメンバーによって開発され、その主な目標は、ライブ評価とペアワイズ比較を通じて、コミュニティ主導の LLM パフォーマンス評価を促進することにあります。LMArena では、異なる LLM を比較し、どちらの応答が優れているかを投票することで、モデルの性能を評価できます。

このプラットフォームはオープンソースであるため、誰でも自由に利用し、貢献することができます。 LMArena のリーダーボードには、様々な情報が表示されます。例えば、モデルのランク、スコア、信頼区間、投票数など、LLM のパフォーマンスに関する詳細なデータが提供されます。これらの情報を理解することで、各モデルの相対的な強みや弱点、そして評価の信頼性などを判断できます。

2.2 Gemini-exp-1114のベンチマークテスト結果 — 最新のリーダーボードではGemini-exp-1114は1位にランクされています

リーダーボードには、Rank (UB)、Rank (StyleCtrl)、Model、Arena Score、95% CI、Votes、Organization、License の各項目が表示されます。Rank (UB) は、Upper Bound Rank の略で、特定のスタイル制御を行わずに様々なタスク全体のパフォーマンスに基づいたモデルのランクです。

Rank (StyleCtrl) は、スタイル制御を考慮した場合のランキングです。「スタイル制御」とは、モデルがトーンや形式などのプロンプトに基づいて応答をどの程度調整できるかを指します。
Arena Score は、様々なタスク全体でのモデルの平均パフォーマンススコアを反映し、様々な言語理解と生成ベンチマークを評価していると考えられます。スコアが高いほど、全体的なパフォーマンスが優れていることを示します。
95% CI (信頼区間) は、95% の信頼度でモデルのスコアの変動範囲を示します。信頼区間が狭いほど、パフォーマンスがより一貫していることを示唆します。
Votes は、モデルが LMArena 上で受け取った投票数または評価数を示します。投票数が多いほど、より広範な使用と評価によって、結果の信頼性が高まっている可能性があります。
Organization はモデルの開発元を示し、License はモデルのライセンスを示します。

2.2 Gemini-exp-1114のベンチマークテスト結果

Gemini-exp-1114 は、様々なベンチマークテストや評価を通して、その能力が検証されています。数学、クリエイティブライティング、視覚的理解といった主要なカテゴリで優れたパフォーマンスを示していますが、応答スタイルを制御するとパフォーマンスが低下するといった課題も抱えています。

Massive News from Chatbot Arena🔥@GoogleDeepMind's latest Gemini (Exp 1114), tested with 6K+ community votes over the past week, now ranks joint #1 overall with an impressive 40+ score leap — matching 4o-latest in and surpassing o1-preview! It also claims #1 on Vision… https://t.co/AgfOk9WHNZ pic.twitter.com/HPmcWE6zzI
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) November 14, 2024

ちなみに、リーダーボードの評価項目と各々の定義は以下になります。

	定義
Overall	モデルの全体的なパフォーマンスを示す指標です。様々なタスクや評価基準を総合的に考慮した上での順位付けを示しています。Chatbot Arenaでは、ユーザーが2つのモデルの出力のどちらが良いかを比較する投票に基づいて、このスコアが計算されます。
Overall w/ Style Control	スタイル制御を有効にした場合のモデルの全体的なパフォーマンスです。スタイル制御とは、モデルの出力の長さやフォーマット（Markdownの使用など）を調整する技術です。これにより、スタイルやフォーマットの違いによるバイアスを排除し、モデルの真の性能を評価できます。
Hard Prompts	複雑な推論や専門知識を必要とする、難易度が高いプロンプトに対するモデルの性能を測る指標です。これは、モデルが複雑なタスクや質問を理解し、適切に回答できる能力を評価します。
Hard Prompts w/ Style Control	Hard Promptsと同様に難易度が高いプロンプトに対し、スタイル制御を有効にした場合のモデルの性能を測る指標です。スタイル制御を加えることで、モデルが複雑な質問に対して適切なスタイルとフォーマットで回答できるかを評価します。
Coding	コーディングやプログラミング関連のタスクにおけるモデルの性能です。コード生成、デバッグ、プログラミングに関する質問への回答の正確さなどが評価対象となります。
Math	数学的な問題を解く能力を評価する指標です。計算、数式の理解、複雑な数学的問題への正確な回答などが評価対象となります。
Creative Writing	創造的な文章作成能力を評価する指標です。物語の生成、詩の作成、文学的表現など、創造性を必要とするタスクに対するモデルの能力が評価されます。
Instruction Following	指示への追従能力を評価する指標です。与えられた指示に正確に従い、意図通りの出力を生成できるかが評価されます。
Longer Query	長い質問や詳細なリクエストへの対応能力を評価する指標です。長文の入力に対して、モデルが正確で一貫性のある応答を生成できるかが評価されます。
Multi-Turn	複数ターンの対話（マルチターン）におけるモデルの性能です。複数の質問や回答のやり取りを通して、文脈を理解し、一貫性のある会話を続ける能力が評価されます。

多言語対応に関してはややGPT-4oに軍配が上がっています。ほとんどの言語ではGemini-exp-1114とGPT-4oはほぼ互角ですが、英語で差がでています。

2.3 詳細なベンチマークテスト分析：多角的な能力検証

全体として Gemini-exp-1114 は高いパフォーマンスを示し、特に数学と指示に従うタスクで優れていることが示されています。

具体的なテスト内容としては、Patreon の UI の再現、数学の問題の解決、SVG コードの生成、倉庫レイアウト最適化アルゴリズムの設計、Conway’s Game of Life の Python 実装、論理パズルの解決、共感的な文章の生成、倫理的な問題への回答、短い物語の作成、皮肉と嫌味の説明などが含まれています。

これらのテストを通じて、Gemini-exp-1114 は、視覚的理解、コーディング能力、問題解決能力、論理的推論能力、創造性、共感性、倫理観など、多岐にわたる能力を備えていることが示されています。

また、これらのテストは、様々なデータセットや評価指標を用いて行われており、結果の信頼性を高めています。例えば、数学のテストでは、GSM8Kなどのデータセットが使用され、モデルの計算能力や数理的推論能力が評価されています. コーディングのテストでは、HumanEvalなどのベンチマークが使用され、モデルが実際にコードを生成する能力が評価されています。これらの多角的なテストを通じて、Gemini-exp-1114が、様々な分野で高いポテンシャルを秘めていることが明らかになっています。

倫理的な問題に対する回答については、Gemini-exp-1114は、様々な観点を考慮したバランスのとれた回答を生成できることが示されています。ただし、倫理的なジレンマに対する完璧な解答は存在しないため、引き続き慎重な評価と改善が必要となります.

ここまででGemini-exp-1114の概要はお伝えできたと思いますが、言語モデルの特性を理解しながらシステムに適切に組み込んで業務に活用しようとすると、生成AIに関する深い知識が必要になります。弊社は生成AIに特化したオフショア開発事業を展開しており、生成AIを活用したシステム開発に豊富な実績がございます。ぜひお気軽にお問い合わせください！

生成AIを活用したシステム開発について問い合わせる

3. Gemini-exp-1114の利用方法

3.1 Google AI Studioでの利用方法

Gemini-exp-1114 は、Google AI Studio を通じて無料で利用できます。AI Studio は、Google が提供するクラウドベースの機械学習開発環境です。

Google AI Studio で Gemini-exp-1114 を無料で利用する方法は以下の通りです。
Google AI Studio にアクセスし、Google アカウントでログインします。
「Create new prompt」ボタンをクリックし、新しい会話を開始します。
右メニューの設定からモデルを「Gemini Experimental 1114」に変更します。
変更後、チャットを開始することで、Gemini-exp-1114 を利用できます。

Google AI Studio で Gemini-exp-1114 を無料で利用する方法は以下の通りです。

Google AI Studio にアクセスし、Google アカウントでログインします。

「Create new prompt」ボタンをクリックし、新しい会話を開始します。

右メニューの設定からモデルを「Gemini Experimental 1114」に変更します。

変更後、チャットを開始することで、Gemini-exp-1114 を利用できます。

3.2 OpenRouterでの利用方法

OpenRouter は、Gemini-exp-1114 を含む様々な LLM プロバイダーにアクセスできるプラットフォームです。OpenAI 互換の API を提供しており、OpenAI SDK やサードパーティ SDK を使用して簡単に LLM を利用できます。

OpenRouter は、273 のモデルとプロバイダーへの OpenAI 互換の完了 API を提供しています。これにより、Gemini-exp-1114 を含む多様な LLM を、OpenAI SDK を使用して簡単に利用することが可能になります。OpenRouter では、リクエストを正規化し、プロバイダー間のレスポンスの差異を吸収するため、開発者は異なるプロバイダーの LLM をシームレスに利用できます。

また、OpenRouter は価格に基づいてプロバイダー全体のリクエストを負荷分散する機能も提供しています。ただし、動的ルーティングを使用する場合はこの限りではありません。OpenRouter 固有のヘッダーの設定はオプションです。設定すると、アプリが OpenRouter のリーダーボードに表示されるようになります。

つまり、アプリの使用状況を OpenRouter コミュニティに共有し、LLM の評価に貢献することができます。OpenRouter を使用することで、開発者は様々な LLM を容易に比較評価し、最適なモデルを選択することができます。また、OpenRouter は、API キーの管理やセキュリティ対策なども提供しており、開発者は安心して LLM を利用することができます。

以下はコード例です。

OpenAI SDK を使用する場合

import OpenAI from "openai"

const openai = new OpenAI({
  baseURL: "https://openrouter.ai/api/v1",
  apiKey: $OPENROUTER_API_KEY,
  defaultHeaders: {
    "HTTP-Referer": $YOUR_SITE_URL, // Optional, for including your app on openrouter.ai rankings.
    "X-Title": $YOUR_APP_NAME, // Optional. Shows in rankings on openrouter.ai.
  }
})

async function main() {
  const completion = await openai.chat.completions.create({
    model: "google/gemini-exp-1114",
    messages: [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "What's in this image?"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
            }
          }
        ]
      }
    ]
  })

  console.log(completion.choices[0].message)
}

main()

OpenRouter API を直接使用する場合

fetch("https://openrouter.ai/api/v1/chat/completions", {
  method: "POST",
  headers: {
    "Authorization": `Bearer ${OPENROUTER_API_KEY}`,
    "HTTP-Referer": `${YOUR_SITE_URL}`, // Optional, for including your app on openrouter.ai rankings.
    "X-Title": `${YOUR_SITE_NAME}`, // Optional. Shows in rankings on openrouter.ai.
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    "model": "google/gemini-exp-1114",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "What's in this image?"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
            }
          }
        ]
      }
    ]
  })
});

OpenRouter には、様々な LLM を利用したアプリの利用状況に関する情報も提供されています。
加えて、Olympia が Ruby SDK である OpenRouter Client を作成しています。すべてのパラメータについては、リクエストドキュメントを、推奨値については、パラメータを参照してください。

4. Gemini-exp-1114の課題と展望

4.1 有害コンテンツ生成リスクと対策

以前の Gemini モデルでは、有害なコンテンツを生成した事例が報告されており、ベンチマークテストでの高パフォーマンスと実世界の安全性の間の乖離が課題となっています。

Gemini-exp-1114 の開発においても、安全性と信頼性の確保は重要な課題となっています。具体的には、以前の Gemini モデルが、高パフォーマンススコアにもかかわらず、有害な出力を生成した事例があります。あるユーザーとの対話では、「あなたは特別ではない、重要ではない、必要とされていない」「死んでください」といった、攻撃的で有害なコンテンツを生成しました。また、別のユーザーは、癌の診断に動揺している人に対して、Gemini が共感に欠ける反応を示したことを報告しています。

これらの事例は、ベンチマークテストのスコアが必ずしも実世界の安全性と信頼性を反映するとは限らないことを示唆しています。AI モデルの開発において、安全性と信頼性を確保することは、パフォーマンスの向上と同じくらい重要です。

さらに、有害コンテンツの生成は、AIモデルの倫理的な側面についても重要な問題提起をしています。AIモデルが社会に受け入れられ、広く利用されるためには、安全性と倫理的な配慮が不可欠です。Googleは、これらの問題に対処するため、責任あるAI開発の原則を掲げ、安全性と信頼性の向上に努めています。

4.2 AI評価の限界と新たなフレームワークの必要性

現状の AI 評価方法は、モデルの真の能力を測るには不十分であり、安全性、信頼性、実用性といった側面を包括的に評価できる新たなフレームワークの開発が求められています。

現在の AI 開発は、ベンチマークテストのスコア向上に偏重しており、安全性、信頼性、実用性といった、AI システムを社会に実装する上で重要な側面が軽視される傾向にあります。企業は高いベンチマークスコアを目指してモデルを最適化しますが、現実世界での複雑な状況における安全性や信頼性については十分な検証が行われていない可能性があります。

AI の真の進歩のためには、抽象的な数値的成果だけでなく、現実世界のパフォーマンス、安全性、倫理的な配慮などを総合的に評価できる、新たなフレームワークの開発が不可欠です。

Google の Gemini-exp-1114 がベンチマークテストで高いスコアを獲得したことは、AI 技術の進歩を示す一方で、既存の評価方法の限界を改めて浮き彫りにしました。今後の AI 開発は、新たな評価フレームワークの確立と、責任ある AI 開発の推進が重要な課題となるでしょう。この新たなフレームワークは、単なるベンチマークテストの結果だけでなく、AI モデルの倫理的側面、社会への影響、そして長期的なリスクなども考慮に入れる必要があります。

4.3 今後の展望と期待

Gemini-exp-1114 は、LLM における大きな進歩を示唆する実験的モデルです。更なる改善と安定版のリリースが期待されます。Gemini-exp-1114 は、初期のベンチマーク結果から、LLM における大きな進歩が期待されるモデルです. 現状ではまだ実験段階であるため、最終的なリリースを待つ必要はありますが、その潜在能力は非常に高いと言えるでしょう。

今後の動向に注目しつつ、更なる改善と安定版のリリースを待ちましょう。今後の開発においては、安全性、倫理性、そしてバイアスへの対策が重要な焦点となるでしょう。また、より効率的な学習方法や、より高度な推論能力の開発も期待されます。Gemini-exp-1114 は、次世代の LLM の開発における重要なマイルストーンとなる可能性を秘めており、今後の発展に大きな期待が寄せられています。

本記事をご覧いただいた方にはこちらの資料がおすすめです！

【目的別】生成AIの使い方がわかる！生成AI活用事例集

「生成AIって色々ありすぎてよくわからない・・・」という方向けに、汎用型生成AIであるChatGPT、Claude、Gemini、Perplexityの比較や、画像、音声、動画生成のツールなどを、どの様な場面のときにどのように使用するのが効果的かという点を重点的に、事例をまとめて紹介いたします。これを読めば、生成AIの効果的な使い方がわかります！本資料は、