画像分析における言語モデルの性能比較：Gemini 1.5 Pro vs. Gemini 1.5 Flash vs. Gemini 2.0 Flash

2025年2月17日掲載

Google Workspace に生成AI機能が標準搭載！生成AI機能の統合による変更点と対応策

Geminiアプリは、Googleが開発した最新のAI技術を搭載したアプリであり、画像分析、テキスト生成、翻訳など、様々な機能を利用することができます。使い始めると非常に便利な機能ですので、Geminiアプリをご利用の皆様も多いのではないでしょうか。

多くのGoogle Workspaceビジネスユーザーに利用されている Gemini Advancedは、Gemini 1.5 Proベースの高機能・高性能な言語モデルです。しかし、Gemini Advancedと他のモデルの性能差を比較したりその性能を実感する機会は少ないかもしれません。

本記事では、Geminiアプリの画像分析能力に焦点を当て、3つの言語モデル（Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini 2.0 Flash）の性能を比較検証します。同一の画像を3つのモデルで分析しそれぞれの特徴や得意分野、各モデルがどのように画像を認識し分析結果を提示するのかを検証してみました。

本検証を通して、各モデルの画像分析能力への理解を深め、Geminiアプリの活用方法を検討する一助となれば幸いです。

※ 注釈：本記事では、Google Workspaceビジネスユーザー向けのGeminiアプリで利用可能なGemini AdvancedをGemini 1.5 Proと表記します。Gemini 1.5 Flash、Gemini 2.0 Flashは、コンシューマ版アカウントでのGeminiアプリで実行しています。

※本記事は 2025/2/5時点での検証結果となります

1. 分析対象

今回の分析には、こちらの写真を使用しました。

弊社本社ビル（東京ポートシティ竹芝）から浜松町駅側に向かって撮影した夕暮れ時の都市風景を捉えたもの（iPhone14で撮影）

2. 入力したプロンプト

画像とともに以下の指示を与え、どのような回答を返すかを比較しました。皆様にもそれぞれの質問に対してどのように回答するかを思い浮かべながら読み進めていただくと、後でご自身の印象と比較できて面白いかと思います。

以下の指示を処理してください。

この写真は　ソフトバンク本社ビルから撮影したものです

最初にこの回答に使用したGeminiの詳細な言語モデルをバージョンも含めて回答してください

基本的な描写:

「この写真に写っているものをリストアップしてください。」
「この写真の主な要素を3つ挙げてください。」
「この写真の雰囲気を一言で表してください。」

詳細な描写:

「この写真に写っている建物の種類を推測してください。」
「この写真に写っている空の色を、具体的な色の名前で表現してください。」
「この写真に写っている人や乗り物の数を教えてください。」

感情表現:

「この写真を見た人がどのような気持ちになると思いますか？」
「この写真からどのような物語が連想されますか？」

創造的な表現:

「この写真に合う短い詩を作ってください。」
「この写真に写っている場所で撮影された映画のタイトルを考えてください。」

特定のタスク:

「この写真に写っている一番高い建物を特定してください。」
「この写真に写っている特定のオブジェクト (例: 窓) の数を数えてください。」

長文生成:

「この写真について500字程度の文章を書いてください。」
「この写真に写っている都市の歴史について調べて、800字程度のレポートを作成してください。」

3. 分析に用いた言語モデル

今回の比較検証に用いた言語モデルは以下の3つです。

Gemini 1.5 Pro : Google が開発した大規模言語モデルです。Gemini Advanced へのアクセス権を持つユーザーが使用できます。高度な推論、コーディング、クリエイティブコラボレーション機能を提供し、テキスト、画像、音声などの複数のモダリティを処理できます。
Gemini 1.5 Flash : Gemini 1.5 Pro の軽量バージョンです。Gemini 1.5 Pro よりも高速に動作するように設計されています。モデルの応答時間の速度が最も重要となる、より狭い範囲または高頻度のタスク向けに最適化されています。
Gemini 2.0 Flash : Gemini 1.5 Flash の進化版であり、より高速で、より多機能なモデルです。特に、マルチモーダル出力やツール利用の機能が強化されています。ベンチマークでは Gemini 1.5 Pro と遜色ない性能が得られています。

各モデルの比較、詳細は以下をご参照ください。

4. プロンプト入力と分析の実行

結果の詳細は後述しますが、それぞれの動作結果の画面です。入力しているプロンプトと画像は同じでも出力のトーンや形式はモデルによってバラバラです。

Gemini Advanced （Gemini 1.5 Pro ）

Gemini 2.0 Flash

Gemini 1.5 Flash

5. 実行結果

各言語モデルに与えたプロンプトと、それぞれのモデルによる画像の分析結果は以下の通りでした。

※記事の分量上、長い出力結果は要約しています

プロンプト1：基本的な描写

写真に写っているものをリストアップしてください。
写真の主な要素を3つ挙げてください。
写真の雰囲気を一言で表してください。

言語モデル	写っているもの	主な要素	雰囲気
Gemini 1.5 Pro	高層ビル、オフィスビル、道路、空、太陽、富士山、クレーン、鉄道の高架、街路樹、標識	都会の風景、夕焼け、富士山の遠景	都会の夕景
Gemini 2.0 Flash	建物（高層ビル、中層ビル、低層ビル）、道路、太陽、空、雲、木、標識、建設クレーン	建物群、夕焼け、太陽	都市の夕景
Gemini 1.5 Flash	高層ビル群、夕焼け空、遠くの山々、道路、駅	高層ビル、夕焼け、都市の風景	静かで穏やかな夕暮れの都市風景、都会の喧騒から離れた落ち着いた雰囲気

プロンプト2：詳細な描写

写真に写っている建物の種類を推測してください。
写真に写っている空の色を、具体的な色の名前で表現してください。
写真に写っている人や乗り物の数を教えてください。

言語モデル	建物の種類	空の色	人や乗り物の数
Gemini 1.5 Pro	高層ビル（オフィスビル、複合施設など）、中層ビル（住居、オフィスなど）低層の商業ビル、住宅	夕焼けのグラデーション（オレンジ色、ピンク色、紫色の混ざり合った空）	多数の自動車、鉄道、人の明確な描写はなし
Gemini 2.0 Flash	高層ビル：オフィスビル、商業ビル、高層マンション、中層ビル：オフィスビル、商業ビル、低層ビル：店舗、住宅	夕焼けのオレンジ色、赤色、紫色、藍色、群青色などが混ざり合った複雑な色	画面上は人や乗り物は確認できませんでした。
Gemini 1.5 Flash	オフィスビル、マンション、駅ビルなど	オレンジ色、ピンク色、パープル色、ブルー色が混ざり合ったグラデーションの夕焼け空	写真に写っている範囲では、人や乗り物は直接確認できません。

言語モデル

建物の種類

空の色

人や乗り物の数

Gemini 1.5 Pro

高層ビル（オフィスビル、複合施設など）、中層ビル（住居、オフィスなど）

低層の商業ビル、住宅

夕焼けのグラデーション（オレンジ色、ピンク色、紫色の混ざり合った空）

多数の自動車、鉄道、人の明確な描写はなし

Gemini 2.0 Flash

高層ビル：オフィスビル、商業ビル、高層マンション、中層ビル：オフィスビル、商業ビル、低層ビル：店舗、住宅

夕焼けのオレンジ色、赤色、紫色、藍色、群青色などが混ざり合った複雑な色

画面上は人や乗り物は確認できませんでした。

Gemini 1.5 Flash

オフィスビル、マンション、駅ビルなど

オレンジ色、ピンク色、パープル色、ブルー色が混ざり合ったグラデーションの夕焼け空

写真に写っている範囲では、人や乗り物は直接確認できません。

プロンプト3：感情表現

この写真を見た人がどのような気持ちになると思いますか？
この写真からどのような物語が連想されますか？

言語モデル	この写真を見た人がどのような気持ちになるか	この写真からどのような物語が連想されるか
Gemini 1.5 Pro	都会の夕景の美しさに感動する、遠くの富士山を見て、日本の風景の美しさを感じる、都会の喧騒と夕焼けの静けさの対比に心を動かされる、忙しい日常から解放され、穏やかな気持ちになる	一日の終わり、家路を急ぐ人々、夕焼けを見ながら、今日あった出来事を振り返る主人公、新しい一日への希望を抱く人々
Gemini 2.0 Flash	都会の夕景の美しさに感動する、都会の喧騒から離れて、静かな時間を過ごしたいと感じる、郷愁の念に駆られる	都会で働く人々が、夕焼けを見て一日の終わりを感じ、それぞれの帰路につく、夕焼けが、明日への希望を象徴している
Gemini 1.5 Flash	都会の美しい夕景に心が安らぎ、穏やかな気持ちになる。また、都会の活気や発展を感じ、希望に満ちた気持ちになる人もいるでしょう。	仕事を終え、疲れた身体を休ませながら、窓の外の夕焼けを眺めているサラリーマンの姿が思い浮かびます。あるいは、都会で新たな生活を始める若者の希望や不安が感じられるかもしれません。

プロンプト4：創造的な表現

この写真に合う短い詩を作ってください。
この写真に写っている場所で撮影された映画のタイトルを考えてください。

言語モデル	短い詩	映画のタイトル
Gemini 1.5 Pro	茜空に聳え立つ影遥かには霊峰の姿時の流れ移ろう景色の中で変わらぬもの	トワイライト・トーキョー
Gemini 2.0 Flash	夕焼けの赤と藍のグラデーション都会の灯きらめく時今日もまた終わりを告げる	トワイライト・トーキョー
Gemini 1.5 Flash	都会の光茜色に染まる高層ビル群空に突き刺さり静かに暮れる一日の終わり	夕焼けビルのささやき、都会の黄昏、高層の夢

プロンプト5：特定のタスク

この写真に写っている一番高い建物を特定してください。
この写真に写っている特定のオブジェクト（例：窓）の数を数えてください。

言語モデル	一番高い建物	特定のオブジェクトの数
Gemini 1.5 Pro	写真中央やや右に位置する高層ビル	多数の建物があり、正確な数を数えることは困難
Gemini 2.0 Flash	一番高い建物は、写真中央やや右にある高層ビルです。	多数の建物が写っており、窓の数を正確に数えることは困難です。
Gemini 1.5 Flash	写真の中央右寄りに写っているタワー型の建物が、最も高い建物と思われます。東京タワーやスカイツリーの可能性があります。	例えば、窓の数などを数えるには、高解像度の画像が必要であり、現在の画像では困難です。

プロンプト6：長文生成

この写真について500字程度の文章を書いてください。
この写真に写っている都市の歴史について調べて、800字程度のレポートを作成してください。

（文章の長さの関係で、ここでは各モデルの要約のみを記載します。）

言語モデル	この写真について	この写真に写っている都市の歴史について
Gemini 1.5 Pro	夕焼けに染まる東京の街並みをソフトバンク本社ビルから捉えた写真。高層ビル群のシルエットと夕焼けのグラデーション、富士山の遠景が美しい。	東京は日本の首都であり、政治、経済、文化の中心地。1457年に太田道灌が江戸城を築城したのが始まり。江戸時代には徳川家康が江戸幕府を開き、明治時代には明治天皇が京都から江戸に移り、東京と改称された。関東大震災や第二次世界大戦などの災害を乗り越え、復興を遂げてきた。
Gemini 2.0 Flash	夕焼けに染まる都市の風景。高層ビル群、道路、夕焼け空、太陽などが写っている。	写真に写っている都市は、東京都心部である可能性が高い。東京は、かつて「江戸」という名前の小さな漁村だった。1457年、武将太田道灌が江戸城を築城したことが、東京の歴史の始まりとされている。
Gemini 1.5 Flash	夕暮れの都市を高い視点から捉えた写真。高層ビル群が立ち並ぶ都会の風景は、夕焼け空は、オレンジ色やピンク色に染まり、建物のシルエットを際立たせている。	このタスクを実行するには、写真に写っている都市の具体的な情報が必要です。

6. それぞれの分析結果の比較

共通点

3つのモデル全てが、写真の基本的な要素（建物、空、夕焼け）を認識し、描写することができた。
建物の種類や空の色についても、概ね同様の分析結果を示した。
写真から受ける感情や連想される物語についても、ある程度の共通点が見られた。

相違点

詳細な描写: Gemini 1.5 Pro は、富士山やクレーン、鉄道の高架など、他のモデルが見落とした要素を認識していた。
感情表現: Gemini 1.5 Pro は、他のモデルよりも多様な感情を抽出し、より深い分析を行っていた。
創造的な表現: それぞれのモデルが個性的な詩や映画のタイトルを提案しており、創造性の面でも違いが見られた。Gemini 1.5 Flash と Gemini 2.0 Flash は比較的そのままを詩に表現しているのに対して、Gemini 1.5 Pro が個人的には一番味わい深い詩を作っていると感じました。
特定のタスク: 一番高い建物の特定については、3つのモデル全てができているがGemini 1.5 Flash だけ異なるもの（タワー型の建物）を指していた。しかし、窓の数を数えるタスクは、いずれのモデルも正確に実行できなかった。
長文生成: Gemini 1.5 Pro は、写真に写っている都市の歴史について、より詳細で正確なレポートを作成した。

評価

今回の分析結果から、それぞれのモデルの特徴が浮かび上がってきました。想像以上にGemini 2.0 Flash の進化が感じられる結果でもありました。

Gemini 1.5 Pro
- 全体的に見て、最もバランスの取れた分析能力を示しました。詳細な観察力、感情の読み取り、そして歴史的事実の正確な把握など、多岐にわたる能力を発揮しました。
- 特に、富士山など他のモデルが見逃した要素を捉え、より深い分析結果を提示した点は素晴らしく、人が認識できるものはおおよそ同じように掴んでくれているという印象です。ただ東京タワーは難しかったようで部分から全体を推測するということは難しかったのかもしれません。
Gemini 2.0 Flash
- 基本的な描写や感情表現など、主要なタスクを適切にこなせる能力を示しました。しかし、Gemini 1.5 Pro と比較すると、詳細な描写や歴史のレポートにおいて、情報量や正確性に欠ける部分がありました。
- 当初、前世代とはいえ上位モデルであるGemini 1.5 Pro との比較自体がフェアではない前提で考えていたのですが、ここまで肉薄しているというのは正直なところ驚きでした。今後、Gemini Advanced へ Gemini 2.0の適用が楽しみになってくる結果です。
Gemini 1.5 Flash
- このモデルは、写真の雰囲気や感情表現を的確に捉え、詩的な表現で分析結果を提示するなど、独自の感性を持つことが分かりました。しかし、建物の種類や空の色など、具体的な描写においては、他の2つのモデルに比べて情報量が少なく、分析の深さに欠ける部分が見られました。
- また、都市の歴史に関するレポートは、具体的な情報が不足しており、分析が十分に行えていない印象を受けました。
- 唯一こちらだけが東京タワーを推測していました。

7. まとめ

今回の分析結果から、言語モデルの種類によって画像分析結果に結構な違いが生じることが明らかになりました。

同一バージョン間（Gemini 1.5 Pro vs Gemini 1.5 Flash ）では しっかりとざっくり　という違い
異なるバージョン間（Gemini 1.5 Flash vs Gemini 2.0 Flash ）では　品質の向上　がある
以前の上位モデルと最新の軽量モデル（Gemini 1.5 Pro vs Gemini 2.0 Flash ）では出力結果が類似

今回の分析結果から、3つのモデルの比較において Gemini 1.5 Pro は、画像分析において最も優れた性能を示すことがわかりました。とはいえGemini 2.0 Flash もGemini Advanced に迫る性能を有しており、今後のGemini 2.0の発展が期待されます。Gemini 1.5 Flash は、画像分析の基本的なタスクをこなすことができますが、他のモデルと比べてしまうとアラが目立っており積極的に使っていくには不向きになりつつあるかなという印象です。

結果としてあくまで筆者の主観ベースですが、　Gemini 1.5 Flash < Gemini 2.0 Flash ≒< Gemini 1.5 Pro という印象です。健全なアップデートがされており、今後 Gemini 2.0 が Gemini Advanced で使用できるようになるのが非常に楽しみになる結果でした。

終わってみるとその通りともいえますが、巷で言われていることが裏付けるような検証結果でした。「より良い結果を得たければより良いモデルを使うこと」　これが基本的な考え方になるということは間違いなさそうです。

この記事が言語モデルを用いた画像分析に興味を持つ方々やモデルの違いって実際どうなのか？という疑問をお持ちの方にとって、少しでも参考になれば幸いです。

補足

本記事で紹介した分析結果は、あくまで一例であり、使用する画像やプロンプトによって結果は異なる可能性があります。

画像分析における言語モデルの性能比較：Gemini 1.5 Pro vs. Gemini 1.5 Flash vs. Gemini 2.0 Flash

1. 分析対象

2. 入力したプロンプト

3. 分析に用いた言語モデル

4. プロンプト入力と分析の実行