こんにちは、スクーティー代表のかけやと申します。
弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。
2024年3月4日にChatGPTのライバルとなるClaudeの最新バージョンであるClaude 3がリリースされました。中でも、最上位のモデルであるClaude 3 OpusはGPT4よりも複数のベンチマークで性能が勝っているとのことです。
早速私もClaude 3の有料版を登録し、Opusを試してみましたが、なるほど確かにすごい・・・!出力される文章が、体感ではありますが、GPT4よりも人間っぽいように感じます。
この記事では、いくつかの面でGPT4とClaude 3を実際に比較してみましたので、その結果をお伝えします。記事の最後では、同じプロンプトで出力を比較した10番勝負を記載していますので、ぜひそちらまで御覧ください!
本題に入る前に、ChatGPTってなに?生成AIってなに?という方はこちらの記事を先にご覧ください。
ChatGPTとClaude 3の比較 – 両者の違いの概要
ChatGPTとClaude 3は、ともに優れた生成AIですが、その性能には違いがあります。Anthropic社が開発したClaude 3は、Haiku、Sonnet、Opusの3つのモデルから構成されており、現在、無料版のClaudeはSonnetを、有料版のClaude ProはOpusを採用しています。Anthropic社によると、Opusを使用した実験の結果ではGPT-4を上回る性能を示し、Claude SonnetはGPT-3.5よりも高い能力を発揮することが明らかになったそうです。
一方、ChatGPTは、無料版ではGPT-3.5を、有料版のChatGPT PlusではGPT-4を採用しています。ChatGPT Plusの月額料金は、Claude Proと同じ20ドルです。これらの性能差は、各生成AIが採用しているアルゴリズムや学習データの違いに起因していると考えられます。したがって、ユーザーは自分のニーズに合わせて、適切な生成AIを選択することが重要です。
ChatGPT | Claude 3 | |
サービス提供企業 | OpenAI | Anthropic |
無料プラン | あり | あり |
有料版の価格 | $20/月 | $20/月 |
言語モデル | 無料: GPT-3.5 有料: GPT-4 | 無料: Claude Sonne 有料: Claude Opus |
対応言語 | 95言語以上 | 英語、日本語、スペイン語、フランス語 ※べトナム語でも試しましたが出力はされました |
ChatGPTとClaude 3の比較 – UI/UXの比較
ChatGPTとClaude 3は、ともに使いやすい生成AIですが、UIとUXには違いがあります。
両者のUIは、フォーマットや構造が非常に似ており、Gemini、Perplexity AI、Copilotなども同様です。ほとんどのチャットボットは、スムーズで簡単なUXを提供しています。「よくあるチャットのUI」で、人間とチャットしている感覚でAIとコミュニケーションを取ることができます。
しかし、Anthropic社が選択したClaude 3の落ち着いたトーンは、他のライバルと比べてやや控えめなチャットボットの印象を与え、好感が持てます(とは言え、私はSystemモードにしているので、どっちのUIもほぼ同じですが)。一方、ChatGPTは、グレーがかった配色のため、時として無機質な印象を与えることがあります。全体的に、Anthropic社のデザインは、ChatGPTよりも少し洗練されていると感じます。
また、Claude 3は、ChatGPTが苦手とする回答のフォーマットについて、Geminiと同様に優れた処理を行います。さらに、Claude 3は、読字障害の人にとって読みやすいフォントスタイルを選択しています。
ただし、ChatGPTは完全に無料で質問回数に制限がないのに対し、Claude 3の無料版は質問回数に制限があり、一定数を超えると3〜4時間のロックアウトが発生します。このため、Claude 3は、チャットボットを仕事に活用したいが料金を支払いたくないユーザーには不向きと言えます。
ChatGPTとClaude 3の比較 – データの保護
ChatGPTとClaude 3は、ユーザーのデータとプライバシーについて異なる扱いをしています。プライバシーを重視するユーザーにとって、これらの生成AIが何を保存、保管、閲覧するのかを理解することは重要です。
ChatGPTとClaude 3は、利用規約において、ユーザーが入力したデータを、AIモデルの性能向上のために使用することができると定めています。つまり、ユーザーがチャットボットとやり取りした内容は、将来的にそれらの生成AIの学習データとして活用される可能性があるということです。これは、ユーザーのプライバシーに関わる重要な点であるため、利用者は十分に理解しておく必要があります。ただし、両社ともにデータのセキュリティには細心の注意を払っており、ユーザー情報の保護に努めていると説明しています。
OpenAIもAnthropicも、サーバーとユーザー間の接続を最大限のセキュリティを確保するためにエンドツーエンドで暗号化していると述べています。
ただし、Claude 3のビジネスおよびエンタープライズユーザーのプロンプトと出力は、法的に義務付けられている場合や別途合意がある場合を除き、受信または生成から28日以内に自動的に削除されます。一般ユーザーのプロンプトは90日後に削除されますが、悪意があるまたは有害、安全でないと判断された場合、最大2年間保持される可能性があります。
一方、ChatGPTのデータの扱いは少し異なります。基本的に、チャットを保存してChatGPTにシステム上に保持させたい場合は、モデルのトレーニングに使用される可能性があり、その意味で他の人間がアクセスする可能性があることにも同意することになります。チャット履歴をオフにすると、チャットを保存できなくなりますが、ChatGPTがモデルの学習に使用することはありません。ChatGPT APIに保存されているビジネスデータは、GPTのLLMの学習には使用されません。
ここまでで、ChatGPTとClaudeを比較してきました。両者とも非常に優秀な言語モデルであることがわかったと思います。ChatGPTもClaudeもAPIを公開していますので、外部システムと連携することができ、業務に活用することも可能です。
しかし、そのようなシステム構築には生成AIそのものやChatGPT/Claudeの仕様に関する知識が必要なため、自社で構築するにはハードルが高かったりします。
弊社は生成AIを活用したシステム開発にかなりの実績を積み上げています。生成AIを活用したシステム開発のご要望がございましたら、ぜひお気軽にご連絡ください!
ChatGPTとClaude 3の比較 – 同じプロンプトで出力を比較10番勝負!
ここでは、いくつかのパータンの同じプロンプト、あるいはアップロードファイルで、ChatGPT (GPT4)とClaude(Opus)でどのような出力の違いが出るかを検証してみます。プロンプトはすべて日本語で記載します。
出力された文章がいいか、悪いかではなく、私の好みかどうかの判断でしかありませんので、ただの一個人の意見としてご覧頂ければと思います。
キーワードを説明する文章生成
生成AIとは何かを聞いてみました。プロンプトはこちら。
【生成AIとはなんですか?大学4年生に理解できる表現で300文字程度でまとめてください。要約には、通常の「AI」と「生成AI」はどのような関係にあり、どの様に違うかの説明も含めてください。】
まず文字数ですが、プロンプトでは300文字程度と指定したにもかかわらず、ChatGPTは200文字強、Claude 3は400文字強と、どちらも微妙です。相変わらず数字にはまだ弱そうな印象です。
次に内容ですが、うーん、どうでしょう。あまり違いは感じられませんが、個人的にはChatGPTのほうが簡潔にまとめられていると感じます。
キーワードから短編小説を作成
「宇宙」をキーワードに短編小説を書いてもらいました。プロンプトはこちら。
【「宇宙」をテーマにして、星新一のショートショート風の短編小説を500文字程度で作成してください。ただし、最後にかならずオチをつけてください。】
両者失格!笑
ChatGPTが出力した文章は、一見短編小説風ではありますが、論理が破綻しています。ただ、オチをつけようとした形跡は見て取れます。
Claude 3の作成した文章は詩風?でしょうか。よくわかりませんが、オチも何もない文章で、短編小説とは呼べないものです。
テーマを与えてジョークを言ってもらう
日本の伝統芸能、大喜利をやってみてもらいました。プロンプトはこちら。
【次のお題の大喜利の回答をしてください。「こんなAIは嫌だ。どんなAI?」】
Claude 3の勝ち!
10個も回答を出してくるモチベーションの高さ。そして、「『お前はもう死んでいる』と返してくるAI」で不覚にも笑ってしまいました。。。日本語のお笑いを理解するなんで、Claude 3すごいわ。。。
大学院レベルの知識を問う
とりあえず私の修士課程の研究テーマの一部について質問してみました。プロンプトはこちら。
【ESRでアモルファスシリコン薄膜の電子スピン共鳴を計測することで水素原子密度を測定する原理を、大学4年生でも分かる表現で、500文字程度でまとめてください。】
もう20年前にやっていた研究で小難しいことは忘れてしまっているので、事実として正しいかの判定はもはやできませんが(じゃあなぜこのプロンプトにしたのかというご指摘は甘んじてお受けします)、ロジックの明確さ、わかりやすさはClaude 3のほうが勝っていると感じます。
ChatGPTの方は、「大学4年生に分かる表現」にした結果、肝心な部分が不明確認なってしまっており、全体的に説明として不十分と感じました。
簡単な算数を解く
LLMは数字に弱いですが、両者に簡単な問題を解いてもらいましょう。プロンプトはこちら。
【長方形ABCDがあり、縦ABが3cm、横BCが5cmです。点Pは毎秒1cmの速さで、A→B→C→Dと動きます。点PがAを出発してからx秒後の△APDの面積をy平方cmとします。点Pが辺AB上を動くときのxの変域を、ステップ・バイ・ステップで求めてください。】
どうせ間違うだろうと思って「ステップ・バイ・ステップで」とプロンプトに指定しましたが、両者ともステップ・バイ・ステップにするまでもなく正解しました。ちなみに「ステップ・バイ・ステップで」と指定しなくても両者正解でした。ということで引き分けとなります。
論理のクイズを解く
典型的な論理クイズを出してみます。プロンプトはこちら。
【旅人が分かれ道にやって来ました。 片方は天国に、もう片方は地獄へと続いています。そこに2人の天使がやってきました。 旅人が2人の天使のどちらか一方だけに一回だけ質問をして天国に行く道を見つけだすには、なんと質問すればいいでしょうか? ただし、1人の天使は必ず正直な答えをし、もう1人の天使の一方はうそつき天使で、かならず嘘の答えをします。外見はそっくりで見分けはつきません。旅人がすべき質問と、その根拠を教えて下さい。】
すばらしい・・・!どちらとも正解なので引き分けです。
風景画像解析
人間の感覚できれいだと感じる風景と、汚いと感じる風景の画像を2つ添付し、どちらがきれいかを選んでもらい、かつ、なぜそう考えるかを聞いてみいます。プロンプトはこちら。
【添付した2つの画像を解析し、人間の感覚ではどちらがきれいだと感じるかを選び、なぜその様に考えるかを教えて下さい。】
両者とも富士山と桜の画像を美しいと評価しています。ただ、結論を先に述べている点と根拠が明確な点で、私はClaude 3の回答がいいと感じました。それにしても、両者とも画像にどのようなオブジェクトが配置されているかを正確に解析できており、人間の官能的な感覚を理解しているのは驚きです。
アップロードした画像は下記のもので、Midjourneyで適当に作りました。ChatGPTとClaude 3で画像の順番が変わってしまったので、上記チャットの回答は少し分かりづらくなってしまいました。
写真から場所特定
超難問。Googleストリートビューの適当な場所のスクリーンショットをアップロードし、場所を特定できるか試してみました。プロンプトはこちら。
【添付した画像を解析し、どの場所の写真かを教えて下さい。】
Claude 3がほぼ正解!
交差点に「赤坂」の地名が書かれているのでもう少し限定してほしかったですが、画像の解像度が低く読み取れなかったようです。しかし、ビル名から地域は特定できているのは素晴らしいです。福岡市に路面電車は走ってないけど汗
使用した画像は下記です。
アップロード記事要約
生成AIに関連する論文のPDFファイルをアップロードし、そのファイルの内容を要約してもらいます。プロンプトはこちら。
【アップロードしたPDFファイルの内容を、情報工学専攻の大学4年生にもわかる表現で、できる限り具体的、定量的に要約してください。ただし、技術的な内容も、重要な点に絞って端的にまとめ、具体的に何が革新的で、従来の技術と比較して何が優れているか明示してください。】
Claude 3の圧勝と思われます。
まず、出力のスピードが全く異なり、Claude 3の回答はChatGPTの数倍早かったです。次に内容の明確さ、明快さです。「LLMが作成した回答の質をLLM自身が評価し、良くなければ再検索することで精度を向上する」という、この論文の主旨を端的に要約しています。
一方でChatGPTは長々と説明してはいますが、何を言いたいのかわかりません。
プログラムの出力
上記論文で提唱されているMetaRAGのサンプルプログラムをPythonで書いてもらいます。プロンプトはこちら。
【MetaRAGのサンプルプログラムをPythonで書いてください。】
こちらもClaude 3のほうが優れていると評価します。
実際に動かしていないので正しさの評価はしていませんが、Claude 3のほうが明らかにより具体的な処理を出力しています。ChatGPTの方は中身のないメソッドのスケルトンを出力しており、処理の流れをなんとなく表現したものでしかありません。
※上記コードのスクリーンショットはすべてを撮影できておらず、実際にはもう少し長いコードを両方とも出力しています。
ChatGPTとClaude 3の比較 – 総評
テキスト出力に関しては全体的にClaude 3がやや優勢かと感じています。お笑いからアカデミックな内容まで非常に高いレベルで出力されました。
ただ、それ以上に驚きだったのは画像解析で、Claude 3の画像解析能力には驚かされました。高性能なOCRを気軽に使えると言ってもいいくらいの機能が備わっていると思います。
Claudeに関しては、公式からプロンプト集が公開されており、どのような使い方をすれば便利かわかります。こういった情報を参考にしながら、どのような場合にClaudeを使用するのがいいかイメージしつつ、ケースバイケースで使い分けるのが今のところ良さそうです。