マネルト

この記事を要約すると・・・

Geminiとは「GPT-4以上の性能を誇るGoogle開発のマルチモーダル型AI」のこと
Geminiには「Gemini Ultra」「Gemini Pro」「Gemini Nano」の3モデルがある
性能を確かめる32のベンチマークのうち30がChatGPTの「GPT-4」よりも上

近年、OpenAI社の「ChatGPT」を始めとし、Microsoftの「Bing AI」、Googleの「Bard」など次々に生成AIが誕生しました。

そんな中、Googleが2023年12月6日に最新作となるAIモデル「Gemini」を発表。

この記事では、ChatGPTの性能を凌駕した今話題のGeminiについて詳しく解説していきます。

Geminiの基本情報から特徴、ChatGPT（GPT-4）との違い・性能差、使い方までわかりやすくまとめているので、ぜひ最後までご覧ください。

＼危険な恋を楽しめるAIマッチングアプリ『Stella』！／
初プロフも顔写真も、メッセージも全てAIが生成！
次世代型の恋愛アプリがここに！

StellaのDLはこちら

＼高性能なAIが文字起こしするボイスレコーダーアプリ！／
英語を含む93種類の言語に対応しているからどんな場面でも使用できる優れもの！！
次世代型の録音アプリはこれ！

VoioiのDLはこちら

生成AI「Gemini」とは？
1. Geminiの特徴（実演映像）
2. Geminiには3つのモデルが存在
【比較】GeminiとChatGPT（GPT-4）の違い
1. GeminiとChatGPTの性能差は？
Geminiを使える環境とは？
1. Google BardでGemini Proを利用する方法（使い方）
まとめ

生成AI「Gemini」とは？

Geminiとは「Googleが開発した新しい人工知能（AI）モデルのこと」です。

なえむ

日本語では「ジェミニ」、海外では「ジェミナイ」と呼ばれているよー！　Gemini＝ふたご座の意味を持つみたいだね！

この新作AIでは、テキスト・画像・音声・動画すべての情報形式に対応したマルチモーダル型となっていることから、複雑なタスクもこなすことが可能だと言われています。

※ マルチモーダルとは、テキスト・画像・音声・動画など異なる種類の複数データを同時に処理できる技術のこと

複雑なタスクとは例えば、以下のような内容です。

数学
物理学
プログラミング言語の高品質コードの理解・生成
画像や動画の内容を読み取る（解説）
音声をテキストに変換

ただ、言葉だけの説明ではGeminiのすごさは伝わりにくいと思います。

ですので、次項の「Geminiの特徴（実演映像）」にて、実際のGeminiのパフォーマンスを見ていきましょう。

Geminiの特徴（実演映像）

Geminiのマルチモーダル推論性能を遺憾なく発揮した映像が、以下になります。

動画内では、目の前で起こっている事象に対して、正確に認識・理解し、特徴について詳しく解説しています。

アヒルのおもちゃが「キーキー」と音を鳴らすと、

アヒルのおもちゃが水上に浮かぶものだと認識
ゴムでできていることを認識（水よりも密度の低い素材で制作されていることを推測）

上記2点について認識しています。

さらに、複数のモノに対して共通点を見出したり、

アヒルのおもちゃが進むべき道を論理的に説明したりと、Geminiの性能の高さをその目で確かめることが可能です。

Geminiには3つのモデルが存在

Geminiには、以下3つのモデルが存在します。

Gemini Ultra（社長）
Gemini Pro（部長）
Gemini Nano（課長）

性能のレベル的には、社長、部長、課長ぐらいの感じです。

それぞれ順番に特徴を見ていきましょう。

Gemini Ultra

Gemini Ultraは「非常に複雑なタスクに適応する最も高性能なモデルのこと」です。

本モデルは、「MMLU（Massive Multitask Language Understanding）」と呼ばれる、知識量や言語理解力、感情分析、マルチタスク性能など、事前学習で得た成果を評価するテストにおいて、ChatGPT（GPT-4）や人間の専門家を抜いて1位を獲得しました。

＜Gemini Ultra＞
→ 90.0％
＜人間の専門家＞
→ 89.8％
＜ChatGPT（GPT-4）＞
→ 86.4％

なえむ

人類を超えた初のAI…それが「Gemini Ultra」だよー！

ちなみにテストの内容には、科学、技術、工学、数学、歴史、医学、法律、倫理を含む57の科目をカバーしており、一般分野から専門分野までの知識や問題解決能力を幅広く試しています。

▶︎手書きのノートを読み取り、物理演習問題に解答するGemini Ultra

Gemini Pro

Gemini Proは「主に生成AI『Bard』での使用を想定して設計されたモデルのこと」です。

幅広いタスクに適応する汎用性の高いモデルとなっており、コストと応答時間の短縮に最適化されています。

ユーザーが放つ高度な問いかけに対しても、十分に理解し、適切な回答を生成することが可能です。

Gemini Nano

Gemini Nanoは「Pixel 8 Proといったスマートフォン上のタスクをこなすことを想定して最適化されたモデルのこと」です。

ChatGPTやBardなど今までの生成AIは、インターネットからアクセスして利用することができましたが、Gemini Nanoは「Pixel 8 Pro」というモバイルデバイスに内蔵されているため、外部サーバーに接続せずとも利用できます。

つまり、オフライン上で生成AIの恩恵を受けられるということです。

オフラインだと外部に情報が漏れないため、オンライン接続のようにセキュリティ上に不安が残ることなく安心して利用できます。

こちまる

チャットの返信提案や要約なんかで機能するみたいなのだっ♪ ボイスレコーダーにおいては、長時間の通話や談義の要点をまとめてくれるからすごいのだ〜！

いつかは、これらの先進的なAIたちが家具や家電といったモノに繋がるかもしれないと思っていましたが、思ったよりも生成AIのIOT化は早く進みそうですね。

※ IoT（アイ・オー・ティー）とは物がインターネットに接続すること

【比較】GeminiとChatGPT（GPT-4）の違い

GeminiとChatGPT（GPT-4）の違いは、「マルチモーダルモデルの仕組みが異なる点」です。

まず、ChatGPTなど従来のマルチモーダルAIを作る手順は、以下の通りになります。

いずれかのデータ（テキスト・画像・音声・動画）に対応したモデルを個別にトレーニングさせる
トレーニングしたモデルを統合して一つのマルチモーダルモデルを製作

なえむ

従来型マルチモーダルモデルは、画像内文章の要約や説明、抽出など特定の分野においては優れているけど、より概念的で複雑な推論は苦手としているんだよー！

次に、GeminiというマルチモーダルAIを作る手順は、以下の通りです。

テキスト・画像・音声・動画などの複数データに対応した一つのモデルをトレーニングさせる
トレーニング済みのモデルに対して、さらにマルチモーダルデータを使用したファインチューニングを行い、より優れたモデルを製作

なえむ

Geminiは独自のトレーニングを積んだ結果、ニュアンスを含んだ複雑な情報に対する読解記述力に秀でて、ユーザーのあらゆるデータ入力をシームレスに理解し、推論することができるらしいよー！　これが本当ならすごいねっ！

Geminiは特殊なトレーニングで鍛えた結果、以下の能力を備えることに成功しました。

数十万もの文書から特定の内容をフィルタリングする能力
→特に「科学」から「金融」までの分野において本領発揮
テキスト、画像など様々なデータを同時に認識し、ユーザーのニュアンスを含む情報を理解した上で、複雑な話題に関する質問の回答を生成する能力
→特に「数学」や「物理学」の推論が得意
Python、Java、C++といった世界中で大人気なプログラミング言語の理解・説明・生成ができる。なおかつ複数の言語の垣根を超えて機能する能力

人間でも容易になしえない作業を実現できる性能は、驚嘆するとともに恐ろしさまでをも覚えますね。

＼ファインチューニングといったAIの技術的特徴について気になる方は／
以下の記事をチェック！

【超簡単】ChatGPTとは何か？特徴・仕組み・料金・活用方法・始め方まで分かりやすく解説！

GeminiとChatGPTの性能差は？

それでは、GeminiとChatGPTとでは、どのぐらい性能に違いがあるのでしょうか。

Google DeepMindが公開した「32のベンチマークテスト」における、両者の結果は以下の通りになります。

出典：Google DeepMind「Gemini: A Family of Highly Capable Multimodal Models」

この画像内には7つのベンチマークしか写っていませんが、なんと「32項目中30ものベンチマークでGemini UltraがGPT-4よりも優れた成績を残した」のです。

つまり、Gemini Ultraの圧勝ということになります。

モデルの性能を表す指標において、そのほとんどがGemini Ultraに軍配が上がったので、これまでにない期待感を示すユーザーも多いでしょう。

ただ、数値の面で言えば、そこまで差が開いているわけではなく、「0.3％〜3％程度」しか上回っていません。

悪く言えば、微増です。もしかすると両者の性能には大差ないかもしれません。

例えば、MMLUのテスト結果によれば、Gemini Ultraは「CoT」において約3％ほどGPT-4に優っていますが、「5-shot prompting」では逆に、GPT-4に比べて約3％ほど劣っています。

※ CoT（Chain of Thought Prompting／思考の連鎖)）とは「問題を解くまでの流れを提示して学習させる手法」のこと
※ Few-shot promptingとは「問題の解答例を提示してパターンを学習させる手法」のこと。つまり5-shotとは、5つ例を出したことになる

それにこの結果は、AIに詳しい有識者が存在して初めて出せるパフォーマンスなので、AIに疎いユーザーが実際にGemini UltraやGPT-4を活用しても、十分なパフォーマンスを発揮できないでしょう。

その点を加味すると、両者には明確な性能の違いはありますが、使用上の違いはあまり顕在化しないのではないかと推測します。

ちなみにGoogle DeepMindにて、両者のベンチマーク結果を示した比較画像が掲載されているので、参考程度にチェックしてみてください。

■文章面の結果
数学・法律・医学を含む57の科目で知識と問題解決能力をテストする「MMLU」にて、Gemini Ultraは「90.0%」のスコアを獲得

■画像や動画、音声面の結果
意図的な推論が求められるマルチモーダルテスト「MMMU」にて、Gemini Ultraは「59.4%」のスコアを獲得

画像を見てもらえればわかるとおり、青文字で色付けされている生成AIの方がより高いスコアを獲得しています。

画像内のベンチマークにおいて、Gemini Ultraは唯一「ヘラスワッグ（日常業務の常識的な推論）」の分野でGPT-4に大敗を喫しています。

その差は約7％なので、他の「0.3％〜3％程度」の違いよりも遥かに大きいことがわかるでしょう。

このことからGemini Ultraの課題は、簡易的な業務における社会通念上の回答の生成と言えます。

Geminiを使える環境とは？

2023年12月現在でGeminiを使用できる環境は、以下の通りです。

生成AIチャットボット：「Google Bard（英語版のみ）」
Androidスマートフォン：「Google Pixel 8 Pro」
開発者向けのAIプラットフォーム：「Vertex AI」
開発者向けツール：「Google AI Studio」

現時点では「Gemini Pro」と「Gemini Nano」しか使えず、Gemini Ultraは既に完成していますが安全性を最終確認するために、一般公開は2024年を予定しています。

また、Googleは今後、Google検索やGoogle広告、Google Chromeなどといった全てのGoogleサービスに生成AI「Gemini」を統合していく計画を立てているようです。

Google BardでGemini Proを利用する方法（使い方）

日本からBardでGemini Proを利用する方法は、以下の通りです。

GoogleChromeブラウザを開く
右上のアカウントアイコンから「Googleアカウントを管理」をクリック
左側にあるメニュー欄から「個人情報」をクリック
下にスクロールしていき、その他の情報とGoogleサービスの設定から「言語」をクリック
優先言語が日本語になっているため、これを「English（英語）」に変える
言語のオプションを「United States」に設定
Bardを開くと英語版になっており、Gemini Proが回答を生成してくれる

Chromeの設定言語を「英語」に変えるだけで、あとは特別な設定を必要としません。

▶︎英語版Bardでは、Geminiの導入を告げるアップデート情報が記載されている

こちまる

日本語版にはアップデート情報が更新されていないのだっ！それと、上の画像は英語版だけどChromeの拡張機能である「Google翻訳」を使用しているから日本語になっているのだ〜♪日本語で使いたいなら翻訳機能をインストールするのら〜！

▶︎Gemini Proが使用できるのかをGeminiに聞いてみた

Gemini Proは、年末の「12月31日」まで利用できるようです。

なお、1月からは普通の「Gemini」に変わるようですが、これが「Ultra」を指すのか「Nano」を指すのか、はたまた別のモデルのことを意味するのかは現時点では不明です。

まとめ

今回は、Googleがリリースした新しい生成AI「Gemini（ジェミニ／ジェミナイ）」について解説しました。

Geminiの特徴は、以下の通りです。

テキスト、画像、音声、動画すべてのフォーマットに対応したマルチモーダル型AI
Gemini Ultra、Gemini Pro、Gemini Nanoの3モデルが存在
数学・法律・医学を含む57の科目で知識と問題解決能力をテストする「MMLU」にて、GPT-4や専門家を抜いてGemini Ultraが1位の成績を獲得
32のベンチマークのうち、30の項目でGPT-4を上回る
2023年12月時点ではGemini Ultra以外のモデルを使用可能

ChatGPTを含む生成AIと比較して、Gemini Ultraがどのぐらいの性能を誇るのかは実際に使用してみないとわかりませんが、前評判の段階ではかなりレベルの高いAIとなっています。

現時点では、生成AI界隈の中でトップクラスと言えるため、ChatGPTはもちろん、Geminiの動向についても注目していきたいところです。

Geminiは、あなたの仕事の発展に寄与し、収入を増やすチャンスを生み出してくれる最強のツールであることは間違いないので、ぜひ今のうちから利用してみてください。

きっとあなたの力になってくれるはずです。