※この記事のアイキャッチ画像は、DALL·Eで生成しました。
Googleの最新生成AI「Gemini」について、ご紹介します。AI技術の進化は私たちの生活に多大な変化をもたらしており、生成AI市場では、この「Gemini」が新たな動きを見せています。Googleは以前、「Bard」という生成AIアプリをリリースしましたが、そのアプリに組み込まれているLLM「PaLM 2」を発展させ、「Gemini」として新たにリリースしました。
この記事のインデックス
Google Geminiとは?
このリリースにより、「Bard」アプリは「Gemini」に名称を変更しました。これにより、LLMの名称とアプリの名称が統一され、Googleのこの分野への本気度が伺えます。
LLMとしてのGemini
2023年4月、Googleは自社のAI研究部門「Google Brain Team」と、AI開発企業「DeepMind」を統合して、「Google DeepMind」を設立しました。この統合は、GoogleのAI開発をさらに加速させる戦略的な動きです。
この新組織のビジョンを具現化した成果が、2023年12月発表の最新LLM「Gemini1.0」です。
これまでGoogleのLLM技術の最前線を担っていた「PaLM2」を上回る性能を持つ、「Gemini1.0」は多様なデータタイプ(画像、テキスト、音声、動画)を処理する「マルチモーダル」AIエンジンとして公開されました。
さらに、「Gemini」には「Ultra」「Pro」「Nano」の3つのモデルがあり、一般ユーザー向けには「Pro」モデルが無料で提供されます。これらのモデルは以下の目的に応じて設計されています:
- Ultra:非常に複雑なタスクに対応する、高性能かつ最大のモデル
- Pro:幅広いタスクに対応する最良のモデル
- Nano:デバイス上のタスクに最も効率的なモデル
「Ultra」モデルは、57科目にわたる広範囲な知識と問題解決能力を測定するMMLUベンチマーク(大規模マルチタスク言語理解)で90.00%のスコアを記録しました。
これは、人間の専門家のパフォーマンスを上回る、初のモデルとなります。この成果は、Ultraが現在知られている中で最上位のLLMであり、GPT-4の能力さえも超越していることを示唆しています。
加えて、大学レベルのマルチモーダル理解を評価する新たなベンチマーク「MMMU」においても、Ultraは59.4%という最高水準のスコアを達成しました。これは、GPT-4Vが記録した56.8%のスコアを上回る結果です。
アプリとしてのGemini
2024年2月に公開された「Gemini」アプリには、二つの主要なバージョンがあります。「Gemini Pro」は無償で利用できるバージョンで、「Gemini Ultra1.0」を搭載した高性能なバージョンは「Gemini Advanced」として有償で提供されます。
「Gemini」は40言語に対応し、ウェブ版、Androidアプリ、iOS向けGoogleアプリとしてリリースされる予定です。
「Gemini Advanced」では、推論、理解と要約、コーディング能力が大幅に強化されています。これにより、学習スタイルに応じたパーソナライズされた家庭教師機能や、コンテンツ戦略の計画、ビジネスプランの策定をサポートするクリエイティブパートナーとして活用することが可能です。
この記事では、「Gemini Advanced」アプリに焦点を当て、その機能と可能性についてレビューします。
実際に使ってみましょう!
「Gemini Advanced」を利用するには、Google Oneの「AIプレミアム」プランへの加入が必須です。
私自身、Googleフォトの容量を確保するためにGoogle Oneのベーシックプランを利用していましたが、この度AIプレミアムプランにアップグレードしました。
AIプレミアムプランの月額料金は2,900円で、このプランではGoogleドライブの容量が2TBに増加するなど、「Gemini Advanced」以外にも複数のメリットがあります。
Google Oneのプランに加入することで、Googleドライブの容量増加だけでなく、Googleフォトアプリの「消しゴムマジック」のようなプレミアム機能、外出先での安全なインターネット接続を提供する「Google One VPN」、ダークウェブでの個人情報漏洩をチェックする「ダークウェブのモニタリング」など、多岐にわたる特典を享受できます。
プロンプトを入力する
まず、「Gemini」のウェブサイトにはChromeやEdgeを使用してアクセスします。
有償契約をしていないアカウントでは「Gemini」の基本機能のみ利用可能ですが、AIプレミアムプランに加入すると、画面の左上で「Google Advanced」が自動的に選択された状態になります。
このプランの加入者は間もなく、Gmail、Google ドキュメント、Google スライド、Google スプレッドシートなどで「Gemini for Workspace」(旧称「Duet AI」)を使用することが可能になります。
例えば、弊社の人気記事「【なりすましメールにお困りの企業必見!】SPF ・DKIM ・DMARCの仕組み」を参照して、Geminiを用いて要約文書を作成することができます。
以下のようなプロンプトを用意します。「”””」で括ってある部分が参照する文章です。
以下の文章を要約し、なりすましメールの被害を抑えるにはどうすれば良いか、6000文字程度で作成してください。
【なりすましメールにお困りの企業必見!】SPF ・DKIM ・DMARCの仕組み
“””
なりすましメールの送信者は特別な偽装システムを使い、送信元のメールアドレス(from)を別のアドレスに偽装した迷惑メールを送信しています。受信者側のメールソフトでは、偽装されたメールアドレスが送信元として表示されるため、企業や第三者、または自分自身のメールアドレスから送られたメールのように見えてしまいます。メール送信技術では、送信元とされるFromアドレス(ヘッダーFrom)を簡単に変更することができるのです。なりすましメールはこのFromアドレスを詐称してターゲットにメールを送り付けるのです。なりすましに利用されるメールアドレスは実在する企業のドメインが多く見受けられます。さらに、ターゲットの業務内容なども事前に把握している場合が多くあります。最近のこういった攻撃は下調べに入念な手間をかけており、標的型攻撃やハッキングによる潜伏調査、SNSからの情報入手などを綿密に行い、実在の人物や部署になりすますことも少なくありません。見るからに怪しいメールは誰も開きませんが、ここまで巧妙にやられてしまうと一見しただけでは見分けがつかず、被害が発生してしまうのです。
“””
このプロンプトによって次のような回答が帰ってきました。
参照してもらった文章を元に、様々なサイトから情報を拾って文書化しています。
回答までの時間も一瞬なので、その時点でChatGPTのようにストレスが溜まりません。
もし、この文章が気に入らない場合は、他の選択肢から選ぶこともできます。
今回はこの中から、回答が適切だと感じる3つめの回答を採用しました。
ハルシネーション対策
生成AIが直面する重要な課題の一つに「ハルシネーション」があります。これは、AIが原文にない内容を生成し、まるで独自の知識を基に不正確な情報を提供しているかのように見せる問題です。
このハルシネーション問題に対処するため、「Gemini」では「回答を再確認」機能が導入されています。このボタンを使用することで、AIによる出力の正確性を向上させることが可能です。
このボタンをクリックすることによって、文章のチェック箇所がハイライトされます。
根拠がある箇所は濃い緑色、根拠がない箇所は薄い緑色にハイライトされます。
この機能により、生成された文章の信頼性を二重に確認することが可能です。
Bing Chatでも参照元を表示する機能は存在しますが、参照元の範囲の広さにおいては、世界最大の検索エンジンを運営するGoogleの独自機能と言えるでしょう。
それでも、私は慎重に事を進めるため、提供された文章をそのまま使用することはありません。自分自身で内容を確認します。参照元が明示されることの利点は、この確認作業を少しでも軽減できることです。
Google Workspaceとの連携
GoogleのAIアプリ使用の主要なメリットの一つは、自社の「Google Workspace」との連携が可能であることです。
これは「Bard」の時代から存在する機能で、特に、回答をGoogleドキュメントに直接エクスポートするオプションがあります。
回答を共有する別の機能もありますが、エクスポート機能を利用することで、回答を基にしたビジネス文書の作成が容易になります。
加えて、Googleドライブに保存されたファイルを参照することも可能です。プロンプトの先頭に「@」を入力することで、使用可能なGoogleアプリが表示される仕組みです。
例えば、Googleドライブを選択しプロンプトを入力することで、ドライブ内の文書を基に回答を生成することができます。
また、Gmailの下書きとしてエクスポートする機能を使用すれば、生成された内容を直接メールで送信することも可能です。
Gmail、ホテル、フライト、マップ、YouTubeなど、幅広いアプリを参照できるのは、Google独自の強みです。
YouTubeから目的の動画を探す
まずはYouTubeを利用して、なりすましメールについての教育動画を検索してみましょう。この方法で、YouTubeから関連動画を選んで提案してもらうことが可能です。
以下の文章を元に、これを学習させるのに適した動画をピックアップして欲しい。
#ターゲットは20代以上の社会人です。
#3種類ぐらい提案して欲しい。
#勤務時間内に観るので、過激な表現やビジネスに適しない表現の動画は避けて欲しい。
“””
この間に先程のGeminiの回答を入れます。
“””
もちろん、先にプロンプトで指定した条件に合致する動画が選出されます。
しかし、最終的には動画を自分で視聴し、内容を確認する必要があります。
動画コンテンツを自分で選ぶとなると、多くの時間を要する場合があります。
この点で、特に効率的に情報を探したい方にとって、非常に便利な機能だと言えるでしょう。
さらにGoogleマップも活用してみる
今回は、東京23区内でなりすましメール対策を提供している企業を探索します。
「東京23区内でなりすましメール対策を提供している企業のマップを作成してください」というプロンプトを入力してみましょう。
これにより、推奨される企業のリストと説明文が生成され、Googleマップ上にそれらの企業の位置を示すピンが配置されます。
ピンをクリックすると、Googleマップが該当企業の詳細情報を表示します。
さらに、この情報はGoogleドキュメントやGmailの下書きとしても出力可能です。
評価と今後の展開
Googleの「Gemini Advanced」は、ChatGPT-4と比較して処理速度が速く、Google Workspaceで提供されるアプリとの連携面で優れています。
一方で、回答の精度、画像生成、データ分析の面では、現時点でOpenAIが提供する「ChatGPT-4」、「DALL·E」、「Data Analyst」が使い勝手で先行しています。
しかし、インターネット検索、グループウェア、AIスピーカー、Android OSを含む多岐にわたる膨大なリソースを持つGoogleには、今後も大きな期待が寄せられています。
米国では既にAndroidとiOSアプリでGeminiが利用可能になっており、日本でも今後数週間内にリリースされる見込みです。
私自身も自宅のIoT機器をGoogle Homeに一元管理しているため、今後のアップデートに期待しています。
AndroidでGoogleアシスタントがGeminiに変更可能に
Androidに標準搭載のGoogleアシスタントが、Geminiへ切り替えできるようになりました。
いつものようにGoogleアシスタントを呼び出すと、Geminiへの切り替えを打診されましたので、早速切り替え。
まず、いつものようにGoogleアシスタントを呼び出す(標準では電源ボタン長押し)と、Geminiが起動します。声かキーボードで質問を投げかけると、WEB版と同様にGeminiが質問に答えてくれます。
また、設定についても、WEB版同様の拡張機能設定(Google Workspaceとの連携など)、アクティビティの確認などができ、有償の「Gemini Advanced」ユーザーにはGeminiとの切り替えボタンが表示されます。
スマートフォンアプリ版では、Gemini選択時もGoogleアシスタント機能でアラーム設定や家電の操作などを行うかどうかを選択できます。
私は家の家電をGoogleアシスタントで操作しており、Geminiに「テレビをつけて」と指示したところ、いつも通りテレビの電源が入りました。
Geminiが賢いとはいえ、これまでのGoogleアシスタントの方が使い勝手が良かったと感じられる方もいるかもしれません。
その際には、Googleのデジタルアシスタントにどちらを選択するかを選ぶ設定があり、GeminiとGoogleアシスタントを簡単に切り替えできるようになっています。
今後、iPhoneでも、Googleアプリでアシスタントの利用ができるようになるとのことです。
ちなみに、現時点ではGoogle HomeにGeminiを実装することはできないようですが、Gemini対応のデバイスが2024年中に発売される予定があるそうです(Geminiが言ってました!)。
「Gemini 1.5」の発表
Gemini 1.0が公開され、わずか2ヶ月。2024年2月15日にLLMの「Gemini 1.5」が発表されました。
1.0と比較し、コンテキストウィンドウの拡大、理解力の向上、全体的なパフォーマンスの向上など、複数の大規模なアップグレードが行われました。
たとえば、Gemini 1.0は3万2000トークンが上限でしたが、Gemini 1.5は最大100万トークンを処理できるといいます。
モデルに入力できるトークン数が多ければ多いほど、より多くの適切な情報に基づいた応答が返ってくるため、大幅に制度が向上する可能性があります。
具体的な性能としては、一度に1時間の動画、11時間の音声、70万語、または30,000行のコードを取り込んで理解することができるそうです。
一般向けのリリースはまだこれからですが、開発者は、AI StudioやGoogleのVertex AIクラウドプラットフォームAPIを介してGemini 1.5 Proにアクセスすることができるとのことです。
Gemini Ultraと比較すると、非常に小さなLLMモデルあるはずなのに、大きくパフォーマンスが向上しています。きっと、後日Ultra 1.5の開発にも生かされていくことでしょう。
開発者向けの軽量オープンモデル「Gemma」
2024年2月21日、Gemini(ジェミニ)のオープンモデルにあたる「Gemma(ジェマ)」が公開されました。
Gemma(ジェマ)はラテン語の「宝石」に由来しているそうで、Geminiモデルの作成に使用されたものと同じ研究および技術に基づいて構築された軽量で最先端のオープンモデルとのことです。
Gemmaは「Gemma 2B」と「Gemma 7B」という2つのサイズを用意しています。
いずれも、ベンチマークでは同じサイズのオープンモデル(Llama 2 や Mistral 7B など)と比較しても高い性能を実現するそうで、PC環境で直接実行できるとしています。
また、アプリケーション開発に向け、様々なツールも公開しました。GemmaはNVIDIA GPU、Google Cloud TPUといった複数のAIハードウェアプラットフォームにも最適化しているとのことです。
詳しくはGemmaのサイトへ
Gemini Advancedに「Gemini 1.5 Pro」が実装されました
5月14日に大規模言語モデル「Gemini 1.5 Pro」が「Gemini Advanced」に導入されました。
これにより、「Gemini Advanced」は100万トークンのコンテキストウィンドウを持っており、最大1500ページの文書を読み解いたり、100件の電子メールを要約できたりするそうです。
コンテキストウィンドウの拡大は、これまでと比べものにならないほど複雑な課題を解決し、情報を探索、分析する時間を短縮し、生産性を高めます。
また、開発者向け、Google Cloudユーザー向けには、最大200万トークンのコンテキスト ウィンドウも提供されています。
ドキュメント アップロード機能
複数のGoogle ドキュメント、PDF、Word ファイルを、Google ドライブやデバイスから、シームレスにアップロードし、学術文書、個人的な文書、その他の文書の要約、フィードバック、分析情報を入手できます。
「Gemini Advanced」では、チャット画面でマイクボタン隣のプラスボタンをクリックすることで、「ドライブから追加」というメニューが出るようになりました。
ドライブにネットで拾った生成AIの活用事例に関するプレゼンテーション(PDFファイル)を保存し、それを分析させてみました。
「このレポートを見て、AI活用のプロセスとそれによって得られた便益について2000文字程度でまとめてください」というプロンプトを入力しています。
プレゼンテーションは意外と画像や図形が多いため、分析は難しいものという認識でしたが、ここまできちんとレポートを作成してくれるなら、時短ができそうですね。
高速版「Gemini 1.5 Flash」、「PaliGemma」、「Gemma 2」の発表
「Gemini 1.5 Pro」の新機能と同時に、高速処理で割安な生成AI「Gemini 1.5 Flash」、オープンな大規模言語モデルの最新バージョン「PaliGemma」と「Gemma 2」も発表されました。
PaliGemmaは画像キャプションや視覚的な質問に特化した言語モデルで、Gemma 2は開発者や研究者でも使いやすい高パフォーマンスが発揮できるように構築されたハイパフォーマンスモデルです。複雑で分かりにくいので、表にまとめました。
モデル名 | Gemini 1.5 Pro | Gemini 1.5 Flash | PaliGemma | Gemma 2 |
---|---|---|---|---|
コンテキストウィンドウ | 100万トークン | 100万トークン | – | – |
コンテキストウィンドウ(拡張) | 200万トークン(要ウェイトリスト) | – | – | – |
入出力形式 | テキスト、画像、音声、動画 | テキスト、画像、音声、動画 | – | – |
特徴 | 高度な生成AIタスク | 高速処理 | 画像キャプション、視覚的質問に最適化 | ハイパフォーマンス、研究開発向け |
料金 | Gemini Advanced利用料に含まれる | 100万トークンあたり35セント~ | 現時点では不明 | Vertex AI |
利用方法 | Gemini Advanced(Google AI Studio、Vertex AI) | Google AI Studio、Vertex AI | 現時点では不明 | Vertex AI |
Geminiと音声で双方向コミュニケーションできる「Gemini Live」
「Gemini Live」は、Gemini Advancedの登録者向けに2024年後半頃から提供される予定の高度な音声モデルです。
Gemini Liveは、高度な音声認識と生成技術により、まるで人間と話しているかのような自然な会話ができるとのことです。
ライブチャットを使用すると、Gemini に話しかけて、自然な会話音声を選んで応答することができます。通常の会話と同じように、自分のペースで話したり、応答を途中でさえぎって追加の質問をしたりといったことも可能です。
また、スマートフォンのカメラで映し出している物事について、Gemini Liveと会話できます。例えば、目の前の料理のレシピを尋ねたり、観光地について質問したりできます。
Geminiをカスタマイズできる「Gems」
ChatGPTで言えば、GPTsみたいなものですね。
Gemsを使ってGeminiを特定の専門家に擬人化し、専門的なアドバイスができるChat botとして動作させることができます。
Google Japan Blogによれば、たとえば、「ランニング コーチとして、毎日のランニング計画を提案して。ポジティブで、明るく、やる気に満ちた感じで」のように依頼できるそうです。
以下は、「Google I/O ’24」でのその他発表内容のダイジェストです。
Googleニュースアプリで最新情報をゲット!
Quad CompetenceのブログはGoogleニュースからご覧いただけます。
Googleニュースで当サイトのフォローをしていただければ、最新情報のチェックが可能です。
Googleニュース又はGoogleニュースアプリ(Android/iOS)の上部検索窓から「Quad Competence」と検索してフォローいただくと、最新ニュースが配信されます(左上に表示)。Googleアカウントをお持ちの方は、ぜひよろしくお願いします!