こんにちは、スクーティー代表のかけやと申します。
弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。
旧暦あけましておめでとうございます。ということで、日本では馴染がない旧暦ではこの時期が年末年始です。そんな年末年始の時期にDeepSeekはDeepSeek-V3とDeepSeek-R1という脅威の性能を持つAI言語モデルをオープンソース版でリリースして大きな話題を呼びました。
そんな中、繰り返しますが年末年始という時期に、またDeepSeekが新しいマルチモーダルモデルを発表しました。「 DeepSeek Janus-Pro-7B 」は、従来モデルを凌駕する性能を持つ次世代AIモデルで、画像生成と文章理解の両方を得意とし、人間が作成したような自然な文章で、複雑な指示にも正確に応えます。
この記事では、DeepSeek Janus-Pro-7Bの概要、詳細な仕組み、従来モデルとの違い、具体的な活用例まで、専門的な内容をわかりやすく解説します。
DeepSeek Janus-Pro-7Bとは?概要をわかりやすく解説
DeepSeek Janus-Pro-7Bは、DeepSeek-AIという研究チームが開発した、最先端のAIモデルです。このモデルを一言で表すと、「画像生成」と「文章理解」の両方が得意な、非常に賢いAIと言えます。まるで、絵を描くことも、文章を読むこともできる、マルチな才能を持った友人のような存在です。
この図は、Janus-Proの性能を、他のAIモデルと比較したものです。左側のグラフは、画像の内容をどれだけ正確に理解できるかを示しており、右側のグラフは、テキストの指示に従ってどれだけ上手に絵を描けるかを示しています。
Janus-Proは、どちらの能力も非常に優れており、他の最先端のAIモデルよりも高い性能を発揮していることが、この図からわかります。特に、絵を描く能力においては、従来のAIモデルを大きく上回っており、人間が描いた絵と見分けがつかないほどの、高品質な画像を生成することができます。
DeepSeek Janus-Pro-7Bは何がすごいの?
従来のAIモデルは、画像生成か文章理解のどちらか一方を得意とすることが一般的でした。例えるなら、絵を描くのは得意だけど文章を読むのは苦手、あるいは文章を読むのは得意だけど絵を描くのは苦手、といった具合です。しかし、DeepSeek Janus-Pro-7Bは、その両方を高いレベルでこなすことができます。これは、DeepSeek-AIが開発した「Janus」という技術をさらに進化させた「Janus-Pro」という技術を使っているからです。この技術により、画像と文章を深く理解し、それらを結びつけて処理することが可能になりました。
具体的には、以下の点が優れています。
- 高精度な画像生成: テキストで指示を出すだけで、その内容に沿った画像を生成できます。例えば、「赤い帽子をかぶった猫」と入力すれば、その通りの画像を生成してくれます。しかも、その画像の品質は非常に高く、まるでプロのイラストレーターが描いたかのようです。
- 高度な文章理解: 画像の内容を正確に理解し、それについて自然な文章で説明することができます。例えば、写真を見せて「これは何の写真ですか?」と質問すると、写真に写っているものを正確に説明してくれます。
- マルチモーダルな理解と生成:「マルチモーダル」とは、複数の種類の情報を扱うことを意味します。DeepSeek Janus-Pro-7Bは、画像とテキストという2つの異なる種類の情報を同時に理解し、処理することができます。これにより、例えば、「赤い帽子をかぶった猫が、青いボールで遊んでいる絵を描いて」というような、複雑な指示にも対応できます。
DeepSeekって何?JanusやJanus-Proとの関係は?
DeepSeekは、AI技術の研究開発を行う、最先端の研究所です。特に、大規模言語モデル(LLM)と呼ばれる、人間のように自然な文章を理解したり生成したりできるAIモデルの開発に力を入れています。DeepSeek Janus-Pro-7Bは、このDeepSeekが開発した最新のLLMなのです。
DeepSeekはこれまでにも、「DeepSeek-LLM」という、高性能なLLMを開発してきました。これは、文章の生成や理解に特化したモデルです。そして、このDeepSeek-LLMをベースに、画像生成と文章理解の両方を可能にしたモデルが「Janus」です。つまり、JanusはDeepSeek-LLMの進化版と言えます。
そして、Janus-Proは、Janusをさらに改良し、性能を向上させたモデルです。具体的には、学習方法を工夫したり、学習に使うデータを増やしたりすることで、画像生成の品質や文章理解の精度を高めています。また、Janusでは1.3Bだったパラメータ数を、Janus-Proでは7Bに増やすことで、より複雑な情報を処理できるようになりました。
DeepSeekに関してはぜひ以下の記事もご覧ください!
DeepSeek Janus-Pro-7Bを使うと何ができるの?
DeepSeek Janus-Pro-7Bを使うと、以下のようなことが可能になります。
- クリエイティブな作業のサポート: デザイナーやイラストレーターが、アイデアを素早く形にするのを助けてくれます。
- 情報アクセスの改善: 画像の内容を文章で説明したり、文章から画像を検索したりすることが容易になります。
- 新しいアプリケーションの開発: 画像と文章を組み合わせた、新しいサービスやアプリケーションの開発が可能になります。
DeepSeek Janus-Pro-7Bは、AI技術の可能性を大きく広げる、革新的なモデルです。今後、私たちの生活の様々な場面で活用されていくことが期待されます。
JanusFlowとは何?
JanusFlowは、効率的な画像生成技術である「Rectified Flow」(後述)を採用することで、軽量でありながら高い性能を実現したモデルです。そして、Janus-Proは、これら2つのモデルの長所を統合し、さらに大規模なデータと強力な計算資源を用いて学習させた、いわば「集大成」と言えるモデルなのです。
DeepSeek Janus-Pro:マルチモーダルAIの最前線を行く性能を徹底解説
DeepSeek Janus-Proは、画像とテキストの両方を理解し、生成できる最先端のAIモデルです。前モデルのJanusから大幅な性能向上を遂げ、マルチモーダルAIの分野に新たな可能性をもたらしています。この記事では、Janus-Proが定量的にどのような性能を持っているのか、何が得意で何が苦手か、何がすごいのかを、ベンチマーク評価結果を交えながら詳しく解説します。
Janus-Proは、DeepSeek社が開発したAIモデルで、画像とテキストの両方を理解し、それに基づいて新しい画像やテキストを生成する能力を持っています。このモデルの最大の特徴は、マルチモーダル、つまり複数の種類のデータを同時に処理できる点にあります。これにより、例えば「猫の絵を描いて」というテキスト指示に従って猫の絵を生成したり、「この画像は何ですか?」という質問に対して画像の内容を説明したりすることができます。
Janus-Proは、前モデルのJanusをさらに進化させたもので、特に以下の3つの点で大幅な改善が加えられています。
- 最適化された学習戦略: モデルの学習方法を改良し、より効率的に学習できるようにしました。
- 拡張された学習データ: 学習に使用するデータ量を増やし、モデルがより多くの知識を習得できるようにしました。
- モデルサイズの拡大: モデルの規模を大きくし、より複雑なタスクに対応できるようにしました。
これらの改善により、Janus-Proは、画像とテキストの理解能力、テキストによる画像生成能力の両方で、従来のモデルを大きく上回る性能を達成しています。
Janus-Proの性能や仕組みに関してはこちらの論文に詳しく記載されています。
関連資料:JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
Janus-Proの定量的な性能評価
マルチモーダル理解能力
Janus-Proは、画像とテキストの両方を同時に理解する能力が非常に高いです。この能力について、ベンチマーク評価結果を詳しく見ていきましょう。
以下の表では、Janus-Proのマルチモーダル理解能力を、他の高性能なマルチモーダルモデルと比較しています。
ベンチマーク指標 | 説明 | Janus-Pro-7B | TokenFlow-XL | Emu3-Chat |
---|---|---|---|---|
MMBench | 画像とテキストの理解能力を総合的に評価するベンチマーク。様々な種類の質問に答えられるかを測ります。 | 79.2 | 68.9 | 58.5 |
POPE | 画像に写っているオブジェクトに関する質問に答える能力を評価するベンチマーク。オブジェクトの存在を正確に認識できるかを測ります。 | 87.4 | 86.8 | 85.2 |
MME-P | マルチモーダルモデルの知覚能力を評価するベンチマーク。モデルがどれだけ正確に画像を理解し、その内容を説明できるかを測ります。 | 1567.1 | 1545.9 | 1244 |
SEED | 生成的な理解と推論能力を評価するベンチマーク。画像を見て、その内容を理解し、さらに推論する能力を測ります。 | 72.1 | 68.7 | 68.2 |
GQA | 画像に関する複雑な質問に答える能力を測るベンチマーク。複数のオブジェクトや関係性を理解し、それに基づいて質問に答える能力を測ります。 | 62.0 | 62.7 | 60.3 |
MMMU | 様々な分野(数学、歴史、科学など)の知識を必要とするマルチモーダルな問題を解く能力を測るベンチマーク。モデルがどれだけ広い範囲の知識を持っているかを測ります。 | 41.0 | 38.7 | 31.6 |
MM-Vet | マルチモーダルモデルの総合的な能力を評価するベンチマーク。画像とテキストの両方を理解し、それに基づいてさまざまなタスクを実行できるかを測ります。 | 50.0 | 40.7 | 37.2 |
上記の表は、Janus-Pro-7Bのマルチモーダル理解能力を、他の高性能なマルチモーダルモデルと比較したものです。この表から、Janus-Pro-7BがMMBench, MME-P, SEED, MM-Vetといった指標でTokenFlow-XLやEmu3-Chatといった他のモデルと比較して同等以上の性能を持っていることがわかります。これらの指標は、モデルがどれだけ正確に画像とテキストを理解し、それに基づいて推論や回答を生成できるかを示しています。
旧バージョンやJanusFlowとの比較
以下の表では、Janus-Proのマルチモーダル理解能力を、前モデルのJanusと比較しています。
ベンチマーク指標 | 説明 | Janus | Janus-Pro-7B |
---|---|---|---|
MMBench | 画像とテキストの理解能力を総合的に評価するベンチマーク。様々な種類の質問に答えられるかを測ります。 | 69.4 | 79.2 |
POPE | 画像に写っているオブジェクトに関する質問に答える能力を評価するベンチマーク。オブジェクトの存在を正確に認識できるかを測ります。 | 87.0 | 87.4 |
MME-P | マルチモーダルモデルの知覚能力を評価するベンチマーク。モデルがどれだけ正確に画像を理解し、その内容を説明できるかを測ります。 | 1338.0 | 1567.1 |
SEED | 生成的な理解と推論能力を評価するベンチマーク。画像を見て、その内容を理解し、さらに推論する能力を測ります。 | 63.7 | 72.1 |
GQA | 画像に関する複雑な質問に答える能力を測るベンチマーク。複数のオブジェクトや関係性を理解し、それに基づいて質問に答える能力を測ります。 | 59.1 | 62.0 |
MMMU | 様々な分野(数学、歴史、科学など)の知識を必要とするマルチモーダルな問題を解く能力を測るベンチマーク。モデルがどれだけ広い範囲の知識を持っているかを測ります。 | 30.5 | 41.0 |
MM-Vet | マルチモーダルモデルの総合的な能力を評価するベンチマーク。画像とテキストの両方を理解し、それに基づいてさまざまなタスクを実行できるかを測ります。 | 34.3 | 50.0 |
上記の表は、Janus-Pro-7Bのマルチモーダル理解能力を前モデルのJanusと比較したものです。この表から、Janus-Pro-7BがMMBench, MME-P, SEED, MM-Vetといった指標でJanusを大きく上回り、マルチモーダル理解能力が大幅に向上していることがわかります。
これらのベンチマークテストの結果から、Janus-Proは、以下の点で優れていることがわかります。
- 高い精度: 画像の内容を正確に理解し、質問に答えることができます。
- 広い知識範囲: 様々な分野の知識を理解し、複雑な質問にも答えることができます。
- 高い推論能力: 画像の内容を理解するだけでなく、さらに推論することもできます。
テキストによる画像生成能力
Janus-Proは、テキストによる画像生成能力も非常に高いレベルにあります。この能力について、ベンチマーク評価結果を詳しく見ていきましょう。
以下の表では、Janus-Proのテキストによる画像生成能力を、他の高性能な画像生成モデルと比較しています。
ベンチマーク指標 | 説明 | Janus-Pro-7B | DALL-E 3 | Stable Diffusion 3 Medium |
---|---|---|---|---|
GenEval | テキストによる画像生成モデルの性能を詳細に評価するベンチマーク。指示されたオブジェクトやその関係性を正確に生成できるかを測ります。 | 0.80 | 0.67 | 0.74 |
DPG-Bench | 長く複雑なテキスト指示に従って画像を生成する能力を測るベンチマーク。モデルが複雑な指示を正確に理解し、画像を生成できるかを測ります。 | 84.19% | 83.50% | 84.08% |
上記の表は、Janus-Pro-7Bのテキストによる画像生成能力を他の高性能な画像生成モデルと比較したものです。この表から、Janus-Pro-7BがGenEvalにおいてDALL-E 3やStable Diffusion 3 Mediumを上回り、DPG-Benchでも他のモデルと同等以上の性能を持つことが分かります。これらの指標は、モデルがどれだけ正確にテキスト指示を理解し、指示通りの画像を生成できるかを示しています。
以下の表では、Janus-Proのテキストによる画像生成能力を、前モデルのJanus、そしてJanusFlowと比較しています。
ベンチマーク指標 | 説明 | Janus | Janus-Pro-7B | JanusFlow |
---|---|---|---|---|
GenEval | テキストによる画像生成モデルの性能を詳細に評価するベンチマーク。指示されたオブジェクトやその関係性を正確に生成できるかを測ります。 | 0.61 | 0.80 | 0.63 |
DPG-Bench | 長く複雑なテキスト指示に従って画像を生成する能力を測るベンチマーク。モデルが複雑な指示を正確に理解し、画像を生成できるかを測ります。 | 79.68% | 84.19% | 80.09% |
上記の表は、Janus-Pro-7Bのテキストによる画像生成能力を、前モデルのJanus、そしてJanusFlowと比較したものです。この表から、Janus-Pro-7BがGenEval, DPG-Benchの両方でJanusを大きく上回り、JanusFlowと比較しても同等以上の性能を発揮していることが分かります。
これらのベンチマークテストの結果から、Janus-Proは、以下の点で優れていることがわかります。
- 高い忠実度: テキスト指示に忠実に、高品質な画像を生成することができます。
- 複雑な指示への対応: 長く複雑なテキスト指示にも対応できます。
- 多様な表現: さまざまなスタイルの画像を生成することができます。
上記の図は、マルチモーダル理解能力(左)と画像生成能力(右)を評価する指標をモデルごとにプロットしたグラフになります。これらのグラフからJanus-Proはマルチモーダル理解能力も画像生成能力においても、少なくともここでプロットされている他のモデルよりも高い性能を持っていることがわかります。
上記の図は、Janusがテキストから生成した画像の一例です。この図とJanus-Proの生成結果を比較することで、Janus-Proが前モデルから大幅に進化していることがわかります。
上記の図は、JanusFlowによって生成された画像です。JanusFlowは、Rectified Flowという技術を利用して、高品質な画像を生成します。この図から、JanusFlowが画像生成能力に優れていることがわかります。
他のモデルと比較したJanus-Proの優位性
Janus-Proは、他のAIモデルと比較して、どのような点で優れているのでしょうか。
既存のモデルとの比較
Janus-Proは、以下の点で既存のモデルを上回っています。
- 高い汎用性: 画像とテキストの両方を理解し、生成できるため、さまざまなタスクに対応できます。これは、他の多くのモデルがどちらか一方に特化しているのに対し、Janus-Proは両方の能力を高いレベルで兼ね備えていることを意味します。
- 高い精度: マルチモーダル理解能力と画像生成能力の両方で、高い精度を達成しています。これは、他のモデルと比較して、より正確に画像やテキストを処理できることを示しています。
- 高い効率性: 学習に必要なデータ量や計算量が少なく、効率的に学習できます。これは、より少ないリソースで高性能なモデルを開発できることを意味します。
他のマルチモーダルモデルとの比較
Janus-Proは、他のマルチモーダルモデルと比較して、特に以下の点で優れています。
- 独立した視覚エンコーダー: マルチモーダル理解と画像生成のために、別々の視覚エンコーダーを使用しているため、それぞれのタスクに最適化された学習ができます。これにより、理解と生成の両方の能力を高いレベルで維持できます。
- 学習戦略の最適化: 学習方法を改良し、より効率的に学習できるようになりました。これにより、より少ない学習データでより高い性能を達成できます。
- 学習データの拡張: より多くの学習データを使用することで、モデルの知識を増やしました。これにより、より幅広いタスクに対応できるようになりました。
Janus-Proの強みと弱み
Janus-Proの強みと弱みを、他のモデルとの比較を踏まえてまとめると、以下のようになります。
強み:
- 高い汎用性: 画像とテキストの両方を理解し、生成できるため、幅広いタスクに対応できます。これは、他の多くのモデルがどちらか一方に特化しているのに対し、Janus-Proは両方の能力を高いレベルで兼ね備えていることを意味します。
- 高い精度: マルチモーダル理解能力と画像生成能力の両方で、高い精度を達成しています。これは、他のモデルと比較して、より正確に画像やテキストを処理できることを示しています。
- テキストによる画像生成能力: テキスト指示に忠実に、高品質な画像を生成できます。特に、複雑な指示や細部の表現において、他のモデルを上回る性能を発揮します。
- 効率的な学習: 学習に必要なデータ量や計算量が少なく、効率的に学習できます。これは、より少ないリソースで高性能なモデルを開発できることを意味します。
弱み:
- 入力画像の解像度: 入力画像の解像度が384×384に制限されているため、細かい部分の認識が苦手な場合があります。例えば、細かい文字の認識や、非常に小さなオブジェクトの認識は、他の高解像度モデルに劣る可能性があります。
- 画像生成の細部: 画像生成時に、細部の再現性がやや劣る場合があります。これは、特に非常に複雑な画像を生成する場合に、他のモデルに比べて再現度が低くなる可能性があることを示しています。
DeepSeek Janus-ProとJanusFlowの技術的仕組み
DeepSeek Janus-ProとJanusFlowは、どちらも画像理解と画像生成の両方ができる最先端のAIモデルです。従来、画像を見て内容を理解するAIと、文章から画像を生成するAIは別々に開発されることが一般的でしたが、これらのモデルは、一つのAIで両方のタスクをこなせるように設計されています。これにより、AIがより柔軟に様々な場面で活躍できるようになり、たとえば、与えられた画像に関する質問に答えたり、文章で指示した通りの画像を生成したりできるようになります。また、これらの技術は、AIがより人間のように情報を取り扱い、理解する能力を高めることを目指しています。
Janus-ProとJanusFlowの違い
DeepSeek Janus-Proは、以前に開発されたJanusモデルを大幅に改良したものです。Janus-Proの主な目標は、画像理解と画像生成の両方の性能を飛躍的に向上させることです。このために、Janus-Proでは、学習に使用するデータ量を大幅に増やし、モデル自体のサイズも大きくすることで、より複雑で高度なタスクに対応できるようにしました。また、学習の仕方も見直すことで、以前のモデルよりも効率的に学習を進め、より良い結果を出すことを目指しました。
一方、DeepSeek JanusFlowは、画像生成の仕組みに、Rectified Flowという新しい技術を取り入れたモデルです。Rectified Flowは、画像生成の過程をよりシンプルにし、高品質な画像を効率的に生成できる技術です。JanusFlowでは、この技術をLLM(Large Language Model: 大規模言語モデル)と組み合わせることで、画像理解と生成の両方のタスクを高いレベルで実現しました。この設計により、JanusFlowは、画像生成時に非常に複雑な指示にも対応できるようになり、例えば、「赤い帽子をかぶった猫が青いボールで遊んでいる」のような、具体的な指示にもとづいた画像の生成が可能です。
JanusFlowの技術的な仕組み
JanusFlowは、画像理解と画像生成という異なるタスクを、一つのモデルで同時に処理できるように設計された、非常に複雑なシステムです。このモデルのコアとなるのは、大規模言語モデル(LLM)という、膨大な文章データから学習したAIです。LLMは、文章の内容を理解したり、新しい文章を作ったりするのに非常に優れています。
この図は、JanusFlowの全体的な構造を示しており、入力されたテキストや画像データがどのように処理され、最終的に出力されるかを理解するのに役立ちます。特に、画像理解(Understanding)と画像生成(Generation)のためのエンコーダーが分離され、それぞれの役割を明確にしている点が重要です。
JanusFlowは、この強力なLLMを中心に、画像処理の技術を組み合わせています。 具体的には、
- 画像理解:画像の内容を理解する際には、まず、画像エンコーダーという部分が、画像を解析し、その特徴を抽出します。次に、その抽出された特徴と、入力されたテキストを組み合わせて、LLMが文章を理解し、その内容に基づいて質問に答えたり、説明文を生成します。これは、まるで人が文章を読んで理解するのと同じように、AIが画像の内容と文章の両方を理解するプロセスを意味します。
- 画像生成:文章に基づいて画像を生成する際には、まず、LLMが文章の指示を解析し、その内容を理解します。次に、Rectified Flowという技術を利用して、ノイズから徐々に画像を作り上げていきます。このとき、LLMは、生成される画像が、入力された文章の指示に正確に従うように調整を行います。この過程は、まるで画家が頭の中のイメージを徐々に具現化していくようなものです。
このように、JanusFlowは画像理解と画像生成のプロセスを分離しつつも、一つのLLMを通じて統合することで、非常に柔軟で強力なAIシステムを実現しています。
さらに、JanusFlowでは、画像理解と画像生成のために、異なる画像エンコーダーを使い分けています。画像理解には、画像の意味を理解することに特化したエンコーダーが使われ、一方、画像生成には、画像生成に適したエンコーダーが使われます。これにより、それぞれのタスクに最適化された処理が可能になり、全体的な性能向上が図られます。
この図では、JanusFlowの学習がどのように進められるかが示されています。学習は三つの段階に分かれており、各段階でモデルのどの部分を学習させるかが明確に示されています。これにより、効率的にモデルを学習させ、その性能を最大限に引き出すことができます。
学習は主に以下の3つの段階に分かれています。
- 第1段階:初期化(Adaptation of Randomly Initialized Components):この段階では、新たに導入された部分(生成エンコーダー、デコーダー、線形変換層など)だけを学習させます。これは、これらの新しいパーツを、既に学習済みのLLMや画像エンコーダーと連携させるための準備段階のようなものです。これにより、これらの新しいパーツが、全体のシステムにスムーズに組み込まれるようにします。
- 第2段階:統合事前学習(Unified Pre-Training):この段階では、モデルのほぼすべての部分を同時に学習させます。画像理解、画像生成、テキストのみのデータを使って、モデルが多様なタスクに対応できるようにします。ここでは、まず画像理解の能力を高め、その後、画像生成の能力を高めるというステップを踏みます。これにより、バランスの取れたモデルを育成します。
- 第3段階:教師あり微調整(Supervised Fine-Tuning (SFT)):最終段階では、モデルをさらに特定のタスクに適応させるために、指示(命令)とそれに対する適切な回答や画像データを使い、モデルを微調整します。この段階では、画像の細部まで正確に生成する能力や、指示に正確に従って回答する能力が強化されます。また、この段階では、画像理解に使うエンコーダーも微調整することで、その精度をさらに向上させます。
さらに、JanusFlowでは、モデルの表現能力を高めるために、画像生成の過程で得られた特徴と、画像理解で得られた特徴を一致させるように学習します。これを表現アラインメント(Representation Alignment Regularization)と呼びます。この工夫により、モデルはより自然で意味のある画像を生成できるようになります。この仕組みは、人間が絵を描くときに、頭の中のイメージと実際の絵を照らし合わせながら調整するのに似ています。
Janus-Proの技術的な仕組み
DeepSeek Janus-Proも、基本的な構造はJanusFlowと同様に、LLMを中心に画像処理技術を組み合わせたものですが、学習方法、学習に使用するデータ、そしてモデルの規模においてさらなる進化を遂げています。
具体的には、Janus-Proでは、
- 学習戦略の最適化:モデルの学習をより効果的にするために、いくつかの調整を加えました。
- まず、学習の初期段階(Stage 1)に、より多くの時間をかけることで、モデルが画像の特徴をしっかりと捉えられるようにしました。この段階では、特にImageNetなどの大規模な画像データを用いて学習することで、モデルが画像の基本的な構造を深く理解できるようにします。
- また、学習の第2段階(Stage 2)では、画像生成に関するデータに絞って学習することで、モデルがより効率的にテキストから画像を生成する能力を伸ばせるようにしました。
- 学習データの拡張:Janus-Proの学習には、より多くのデータを使用しています。画像理解のためには、さまざまな種類の画像キャプションデータ、表やグラフのデータ、テキストデータなどを増やしました。これにより、モデルがより幅広い種類の情報を理解できるようにします。また、画像生成のためには、高品質でノイズの少ないデータを取り入れることで、よりリアルで美しい画像を生成できるようにしました。
- モデルサイズの拡大:Janus-Proは、モデルのサイズを大きくすることで、より複雑なタスクを処理できる能力を高めています。具体的には、モデルの内部構造を構成するニューラルネットワークの層の数を増やしたり、各層で使用されるパラメータの数を増やすことで、より多くの情報を表現し、より高度な処理ができるようにしました。
このように、Janus-ProとJanusFlowは、それぞれ異なるアプローチで、画像理解と画像生成の両方を高いレベルで実現することを目指しています。これらのモデルは、AIがますます現実世界の問題を解決する上で重要な役割を果たすことが期待されます。将来的には、これらの技術を応用して、例えば、医療診断の支援や、クリエイティブなコンテンツ制作のサポートなど、様々な分野で活躍することが期待されています。
Janus-Proを試す
では早速Janus-Proで画像生成と画像分析を試してみたいと思います。以下のHugging Faceのデモで簡単に試すことができます。
また、画像生成の定性的な評価は、過去に作成したこちらの記事に倣いたいと思います。
なお、こちらのデモからJanusFlowも試すことができるはずなのですが、私が試したところErrorとだけ表示されて画像が出力されなかったため、今回はJanus-Proのみを試しています。
リアルな人間の表情や目の表現
こちらのプロンプトを使用しました。
A photo of face of a Japanese man at the agen of 30 looking at this way, zoom up, black background
うーん、写実的な表現は得意ではなさそうです。FLUX.1よりも質としては低いと思います。
リアルな犬
私の経験上、人間の顔は写実的に描かれても、動物がいまいち写実的ではないことが多かったので、このテーマを選びました。こちらのプロンプトを使用しました。
A photo of an adorable and fluffy red Shiba inu puppy running on the ground with smiling under the sunny blue sky
うーん、、、写実的でもないし、全然かわいくない。。。
アニメ風画像に文字をいれる
こちらのプロンプトを使用しました。鳥山明風のイラストに文字を載せて描画してくれることを期待します!
An ultra detailed illustration like Toriyama Akira style, long-haired man on a 750cc motorcycle with the label of “Vol.8” and “PENGUIN”, wearing a leather jacket, retro style, traffic sign with “STOP”
文字を描画することも苦手のようです。
ということで、私がよく使うMidjourneyやRecraftと比べると画質は全く劣りますし、全く実用的ではないと感じます。なんなら、ベンチマークでは勝っているという評価だったDall-e3よりも質が低いんじゃないかと感じます。
写真から場所を特定する
こちらのサイトで以下の画像を選びました。この画像をJanus-Proにアップロードし、以下のプロンプトを入力しました。写真内に含まれる対象物を説明し、どの国かを特定するように指示しています。
Explain to me what objects are included in this photo and specify what country it is.
Janus-Proからの回答:
This photo shows a busy street scene with numerous motorbikes and riders. The riders are wearing helmets and some are wearing face masks. The street is lined with trees and various buildings, including shops and restaurants. The architecture and signage suggest that this is a street in Vietnam.
DeepLの翻訳:この写真は、バイクとライダーが多数いる賑やかな街の様子を示しています。ライダーはヘルメットを着用しており、一部はフェイスマスクも着用しています。通りには木々が並び、店舗やレストランなどさまざまな建物があります。建築様式や看板から、ここはベトナムの通りであることが分かります。
こちらは求めていた回答が得られたと思います。結構小さく写っているベトナム語の看板からベトナムの風景であることを特定しています。