フォーム読み込み中
2025年2月17日掲載
Geminiアプリは、Googleが開発した最新のAI技術を搭載したアプリであり、画像分析、テキスト生成、翻訳など、様々な機能を利用することができます。使い始めると非常に便利な機能ですので、Geminiアプリをご利用の皆様も多いのではないでしょうか。
多くのGoogle Workspaceビジネスユーザーに利用されている Gemini Advancedは、Gemini 1.5 Proベースの高機能・高性能な言語モデルです。しかし、Gemini Advancedと他のモデルの性能差を比較したりその性能を実感する機会は少ないかもしれません。
本記事では、Geminiアプリの画像分析能力に焦点を当て、3つの言語モデル(Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini 2.0 Flash)の性能を比較検証します。同一の画像を3つのモデルで分析しそれぞれの特徴や得意分野、各モデルがどのように画像を認識し分析結果を提示するのかを検証してみました。
本検証を通して、各モデルの画像分析能力への理解を深め、Geminiアプリの活用方法を検討する一助となれば幸いです。
※ 注釈:本記事では、Google Workspaceビジネスユーザー向けのGeminiアプリで利用可能なGemini AdvancedをGemini 1.5 Proと表記します。Gemini 1.5 Flash、Gemini 2.0 Flashは、コンシューマ版アカウントでのGeminiアプリで実行しています。
※本記事は 2025/2/5時点での検証結果となります
今回の分析には、こちらの写真を使用しました。
弊社本社ビル(東京ポートシティ竹芝)から浜松町駅側に向かって撮影した夕暮れ時の都市風景を捉えたもの(iPhone14で撮影)
画像とともに以下の指示を与え、どのような回答を返すかを比較しました。皆様にもそれぞれの質問に対してどのように回答するかを思い浮かべながら読み進めていただくと、後でご自身の印象と比較できて面白いかと思います。
以下の指示を処理してください。
この写真は ソフトバンク本社ビルから撮影したものです
最初にこの回答に使用したGeminiの詳細な言語モデルをバージョンも含めて回答してください
基本的な描写:
詳細な描写:
感情表現:
創造的な表現:
特定のタスク:
長文生成:
今回の比較検証に用いた言語モデルは以下の3つです。
各モデルの比較、詳細は以下をご参照ください。
結果の詳細は後述しますが、それぞれの動作結果の画面です。入力しているプロンプトと画像は同じでも出力のトーンや形式はモデルによってバラバラです。
Gemini Advanced (Gemini 1.5 Pro )
Gemini 2.0 Flash
Gemini 1.5 Flash
各言語モデルに与えたプロンプトと、それぞれのモデルによる画像の分析結果は以下の通りでした。
※記事の分量上、長い出力結果は要約しています
言語モデル | 写っているもの | 主な要素 | 雰囲気 |
---|---|---|---|
Gemini 1.5 Pro | 高層ビル、オフィスビル、道路、空、太陽、富士山、クレーン、鉄道の高架、街路樹、標識 | 都会の風景、夕焼け、富士山の遠景 | 都会の夕景 |
Gemini 2.0 Flash | 建物(高層ビル、中層ビル、低層ビル)、道路、太陽、空、雲、木、標識、建設クレーン | 建物群、夕焼け、太陽 | 都市の夕景 |
Gemini 1.5 Flash | 高層ビル群、夕焼け空、遠くの山々、道路、駅 | 高層ビル、夕焼け、都市の風景 | 静かで穏やかな夕暮れの都市風景、都会の喧騒から離れた落ち着いた雰囲気 |
言語モデル | 建物の種類 | 空の色 | 人や乗り物の数 |
---|---|---|---|
Gemini 1.5 Pro | 高層ビル(オフィスビル、複合施設など)、中層ビル(住居、オフィスなど) 低層の商業ビル、住宅 | 夕焼けのグラデーション(オレンジ色、ピンク色、紫色の混ざり合った空) | 多数の自動車、鉄道、人の明確な描写はなし |
Gemini 2.0 Flash | 高層ビル:オフィスビル、商業ビル、高層マンション、中層ビル:オフィスビル、商業ビル、低層ビル:店舗、住宅 | 夕焼けのオレンジ色、赤色、紫色、藍色、群青色などが混ざり合った複雑な色 | 画面上は人や乗り物は確認できませんでした。 |
Gemini 1.5 Flash | オフィスビル、マンション、駅ビルなど | オレンジ色、ピンク色、パープル色、ブルー色が混ざり合ったグラデーションの夕焼け空 | 写真に写っている範囲では、人や乗り物は直接確認できません。 |
言語モデル | この写真を見た人がどのような気持ちになるか | この写真からどのような物語が連想されるか |
---|---|---|
Gemini 1.5 Pro | 都会の夕景の美しさに感動する、遠くの富士山を見て、日本の風景の美しさを感じる、都会の喧騒と夕焼けの静けさの対比に心を動かされる、忙しい日常から解放され、穏やかな気持ちになる | 一日の終わり、家路を急ぐ人々、夕焼けを見ながら、今日あった出来事を振り返る主人公、新しい一日への希望を抱く人々 |
Gemini 2.0 Flash | 都会の夕景の美しさに感動する、都会の喧騒から離れて、静かな時間を過ごしたいと感じる、郷愁の念に駆られる | 都会で働く人々が、夕焼けを見て一日の終わりを感じ、それぞれの帰路につく、夕焼けが、明日への希望を象徴している |
Gemini 1.5 Flash | 都会の美しい夕景に心が安らぎ、穏やかな気持ちになる。また、都会の活気や発展を感じ、希望に満ちた気持ちになる人もいるでしょう。 | 仕事を終え、疲れた身体を休ませながら、窓の外の夕焼けを眺めているサラリーマンの姿が思い浮かびます。あるいは、都会で新たな生活を始める若者の希望や不安が感じられるかもしれません。 |
言語モデル | 短い詩 | 映画のタイトル |
---|---|---|
Gemini 1.5 Pro | 茜空に 聳え立つ影 遥かには 霊峰の姿 時の流れ 移ろう景色の中で 変わらぬもの | トワイライト・トーキョー |
Gemini 2.0 Flash | 夕焼けの 赤と藍の グラデーション 都会の灯 きらめく時 今日もまた 終わりを告げる | トワイライト・トーキョー |
Gemini 1.5 Flash | 都会の光 茜色に染まる 高層ビル群 空に突き刺さり 静かに暮れる 一日の終わり | 夕焼けビルのささやき、都会の黄昏、高層の夢 |
言語モデル | 一番高い建物 | 特定のオブジェクトの数 |
---|---|---|
Gemini 1.5 Pro | 写真中央やや右に位置する高層ビル | 多数の建物があり、正確な数を数えることは困難 |
Gemini 2.0 Flash | 一番高い建物は、写真中央やや右にある高層ビルです。 | 多数の建物が写っており、窓の数を正確に数えることは困難です。 |
Gemini 1.5 Flash | 写真の中央右寄りに写っているタワー型の建物が、最も高い建物と思われます。東京タワーやスカイツリーの可能性があります。 | 例えば、窓の数などを数えるには、高解像度の画像が必要であり、現在の画像では困難です。 |
(文章の長さの関係で、ここでは各モデルの要約のみを記載します。)
言語モデル | この写真について | この写真に写っている都市の歴史について |
---|---|---|
Gemini 1.5 Pro | 夕焼けに染まる東京の街並みをソフトバンク本社ビルから捉えた写真。高層ビル群のシルエットと夕焼けのグラデーション、富士山の遠景が美しい。 | 東京は日本の首都であり、政治、経済、文化の中心地。1457年に太田道灌が江戸城を築城したのが始まり。江戸時代には徳川家康が江戸幕府を開き、明治時代には明治天皇が京都から江戸に移り、東京と改称された。関東大震災や第二次世界大戦などの災害を乗り越え、復興を遂げてきた。 |
Gemini 2.0 Flash | 夕焼けに染まる都市の風景。高層ビル群、道路、夕焼け空、太陽などが写っている。 | 写真に写っている都市は、東京都心部である可能性が高い。東京は、かつて「江戸」という名前の小さな漁村だった。1457年、武将太田道灌が江戸城を築城したことが、東京の歴史の始まりとされている。 |
Gemini 1.5 Flash | 夕暮れの都市を高い視点から捉えた写真。高層ビル群が立ち並ぶ都会の風景は、夕焼け空は、オレンジ色やピンク色に染まり、建物のシルエットを際立たせている。 | このタスクを実行するには、写真に写っている都市の具体的な情報が必要です。 |
今回の分析結果から、それぞれのモデルの特徴が浮かび上がってきました。想像以上にGemini 2.0 Flash の進化が感じられる結果でもありました。
今回の分析結果から、言語モデルの種類によって画像分析結果に結構な違いが生じることが明らかになりました。
今回の分析結果から、3つのモデルの比較において Gemini 1.5 Pro は、画像分析において最も優れた性能を示すことがわかりました。とはいえGemini 2.0 Flash もGemini Advanced に迫る性能を有しており、今後のGemini 2.0の発展が期待されます。Gemini 1.5 Flash は、画像分析の基本的なタスクをこなすことができますが、他のモデルと比べてしまうとアラが目立っており積極的に使っていくには不向きになりつつあるかなという印象です。
結果としてあくまで筆者の主観ベースですが、 Gemini 1.5 Flash < Gemini 2.0 Flash ≒< Gemini 1.5 Pro という印象です。健全なアップデートがされており、今後 Gemini 2.0 が Gemini Advanced で使用できるようになるのが非常に楽しみになる結果でした。
終わってみるとその通りともいえますが、巷で言われていることが裏付けるような検証結果でした。「より良い結果を得たければより良いモデルを使うこと」 これが基本的な考え方になるということは間違いなさそうです。
この記事が言語モデルを用いた画像分析に興味を持つ方々やモデルの違いって実際どうなのか?という疑問をお持ちの方にとって、少しでも参考になれば幸いです。
補足
本記事で紹介した分析結果は、あくまで一例であり、使用する画像やプロンプトによって結果は異なる可能性があります。
Google Workspace は、あらゆる業務に合わせて、すべてのビジネス機能をそろえた統合ワークスペースです。お客さまのご利用に合わせたサポートとオプションをご用意しています。あらゆる働き方に対応する業務効率化を実現します。
IDaas(Identity as a Service)サービスであり、企業向けデバイス管理(EMM)サービスです。Cloud Identity を利用することで、管理者は Google 管理コンソールからユーザ、アプリケーション、デバイスを一元管理することができます。
条件に該当するページがございません