(引用:Google AI Studio)
Google DeepMindが開発した最新の実験的AIモデル「Gemini-exp-1114」が、Chatbot Arena LLM Leaderboardで総合1位を獲得し話題を集めています。本記事では、この新たなモデルの特徴や料金、使い方について詳しく解説します。
さらに、OpenAIの最新モデル「o1-preview」との比較検証も行い、Gemini-exp-1114の優位性について深堀りしていきます。AIの最前線で繰り広げられる熾烈な競争の行方を、ぜひ見届けてください。
Gemini-exp-1114は、2024年11月14日にGoogleが公開した実験的AIモデルです。最大32,767トークンの長文脈処理が可能で、テキスト、画像、音声、動画を統合的に扱うマルチモーダル機能を備えています。
様々なAIモデルの性能を比較・評価するプラットフォーム「Chatbot Arena LLM Leaderboard」では、数学的問題や視覚的タスクを中心に高い性能を示し、総合1位を獲得しました。
(引用:Chatbot Arena)
言語処理能力でも優れた評価を得ており、英語以外はすべて1位という結果を残しています。
(引用:Chatbot Arena)
2024年11月18日現在、Gemini-exp-1114は生成AI開発プラットフォーム「Google AI Studio」から無料で利用可能。Geminiのチャットボットサービスではまだ利用できないので注意しましょう。
GeminiのチャットボットではGemini 1.5 Flash、Proしか選択できない
外部ソフトウェアと連携するAPIも提供されていますが、現在はまだ公式サイトに料金は公開されていません。おそらくGemini 1.5Proよりも高価になると考えられます。
(引用:Google AI for Developers)
Gemini-exp-1114を利用するにはまず、Google AI for Developersにアクセスして「Google AI Studio」にログインをクリック。
Googleアカウントでログイン後、利用規約に同意すればGoogle AI Studioが利用できるようになります。
画面右側のモデル選択メニューから「Gemini Experimental 1114」を選択すれば利用可能です。
あとは質問欄にプロンプト(AIへの指示文)を入力して「Run」をクリックすれば、ChatGPTと同じように回答が生成されます。
画面上部のSystem instructionでは、具体的な指示や回答方法を事前に設定できます。毎回同じプロンプトを入力する必要がないため、一貫性のある回答を生成したい場合に利用すると良いでしょう。
Gemini-exp-1114と、ChatGPTが2024年9月にリリースした最新モデルo1-previewはどちらも推論に強いモデルだと言われているため、AIが苦手だといわれている以下の推論問題を出してみました。
もし雨が降るなら、ジョンは傘を持っていく。ジョンは傘を持っていかなかった。今日は曇りである。今日は雨が降ったと言えますか?
この問題の答えは「今日は雨が降ったとは言えません」です。
どちらのモデルでも正解できると思いますが、どれだけ詳しく説明できるかが比較のポイントになるでしょう。
まずは、Gemini-exp-1114の回答です。回答までにかかった時間は18.3秒でした。
いいえ、今日は雨が降ったとは言えません。詳しく説明しましょう。
与えられた情報に基づいて分析します。
「もし雨が降るなら、ジョンは傘を持っていく。」 これは「雨が降る」が「ジョンは傘を持っていく」という結果を導く条件文です。論理的には、「雨が降る」→「ジョンは傘を持っていく」と表せます。
「ジョンは傘を持っていかなかった。」 これは「ジョンは傘を持っていく」が偽であることを示しています。
「今日は曇りである。」 この情報は雨の可能性を示唆していますが、雨が降ったかどうかを決定的に示すものではありません。
最初のステートメントと2番目のステートメントから導き出せる結論は次のとおりです。
「もし雨が降るなら、ジョンは傘を持っていく」という条件文が真であると仮定します。そして、「ジョンは傘を持っていかなかった」ことが真である場合、「雨が降る」が真であることはありえません。
なぜなら、「雨が降る」が真であれば、「ジョンは傘を持っていく」も真でなければならず、これは矛盾します。したがって、この論理構造から、「雨が降る」は偽であると結論付けられます。
「今日は曇りである」という事実は、雨の可能性を示唆していますが、雨が降ったことを確定するものではありません。曇りでも雨が降らないことはよくあります。
したがって、与えられた情報からは、今日は雨が降ったとは言えません。むしろ、雨は降らなかったと結論付けるべきです。
次に、o1-previewの回答を見てみましょう。回答にかかった時間は16秒でした。
いいえ、今日は雨が降ったとは言えません。
理由は以下の通りです:
もし雨が降るなら、ジョンは傘を持っていく。
これは、「雨が降ればジョンは必ず傘を持っていく」という条件を示しています。
ジョンは傘を持っていかなかった。
この事実から、前提条件である「雨が降ればジョンは傘を持っていく」と照らし合わせると、雨が降らなかったと推測できます。
今日は曇りである。
曇りであることは雨が降る可能性を示唆しますが、雨が実際に降ったかどうかを確定する情報ではありません。
したがって、提供された情報に基づくと、今日は雨が降らなかったと結論付けることができます。
Gemini-exp-1114は論理学で使われる「真偽」という言葉を使って、詳しく回答していることがわかります。o1-previewも回答は同じですが、より簡潔にまとめられている印象です。
o1-previewに「もっと詳しく説明してください。」と追加で質問をした場合には、Gemini-exp-1114と同様に論理学に基づいた回答が生成されたため、性能としては大差がないと考えられます。
しかし、現状o1-previewは有料プランに登録したユーザーしか利用できないため、無料で利用できるGemini-exp-1114がコスト面で軍配が上がる結果となりました。
ちなみに、単純作業が得意で深い推論能力を持たないClaude3のHaikuモデルに同じ質問をしてみたところ、以下のような間違った回答が生成されました。
はい、今日は雨が降ったと判断できます。
理由は以下の通りです:
1. 前提として、「もし雨が降るなら、ジョンは傘を持っていく」という条件があります。
2. その上で、「ジョンは傘を持っていかなかった」というのは、実際に雨が降っていないと判断したためだと考えられます。
3. さらに「今日は曇り」という情報から、天気が雨の可能性がある状況であったことがわかります。
つまり、ジョンが傘を持参しなかったことと、曇りの天気から、今日は実際に雨が降ったと推測できるのです。
ジョンの行動と天気の状況を総合的に考えると、今日は雨が降ったと言えると判断できます。
これはClaude3の能力が低いから、というわけではなくHaikuモデルが推論のような深い思考を必要とする回答を生成するように学習されていないためです。
用途に応じたモデルの使い分けが重要だと、改めて実感できる検証結果となりました。
高い性能を持つGemini-exp-1114がリリースされましたが、すでに一般的なタスクをこなすような作業においては、すでに他のモデルでも優れたパフォーマンスを発揮しています。
そのため、今後私たちのビジネスに関わる点でGemini-exp-1114が能力を発揮するのは、新たなAIツールが開発される際だと考えられます。
これまでのAIモデルが高額なAPI費用がかかっていたところを、Gemini-exp-1114が安価な価格提供ができれば、これまでコスト面の課題から実装できなかった便利な機能が開発に組み込める可能性があります。
費用面については近日中に公開される予定だとされているため、これからの動向に目が離せません。