【IT最新トレンド】対話型AIとは何かを分かりやすく解説!

【IT最新トレンド】対話型AIとは何かを分かりやすく解説!

数十年にわたり、我々は科学技術の進歩によって形成される未来を見つめてきました。
その結果、AI(人工知能)は私たちの生活の中に溶け込み、自然言語処理(NLP)を活用した対話型AIが登場するまでになりました。今日、我々がSiriやGoogle Assistant、Alexaと話す度に、その歴史的な軌跡の一部に参加していることを忘れてしまうかもしれません。

NotebookLMで作成したPodcastのような音声概要です。チームメンバーと共有したい方やお忙しい方、タイパを優先させる方におすすめです!
※漢字や英単語の読み方については、一部誤りもあることをご容赦ください。

対話型AIの誕生とAIの歴史

対話型AIとは何でしょうか?

それは、人間と自然な言葉でコミュニケーションを取ることができるコンピュータープログラムのことを指します。これらのシステムは、日常の問いかけに応えたり、複雑なタスクを実行したりすることができます。

これには対話だけではなく、「生成AI(ジェネレーティブAI)」という側面もあります。

そしてその中心には、検索への活用があります。
これは単にGoogleで何かを検索するだけでなく、情報を解析し、理解し、ユーザーが必要とする情報を提供するために必要なプロセスを指します。

このブログでは、対話型AI(生成AI)の歴史を探りつつ、その中で検索の役割と重要性について詳しく説明していきます。人間とマシンの間のコミュニケーションがどのように進化し、私たちの生活がどのように変化してきたのかを理解するために、共にこの旅を続けていきましょう。

AIの歴史

第一次AIブーム

第一次AIブームとは、1960年代から1970年代前半にかけて起こった人工知能の研究ブームです。

1956年にアメリカのダートマス大学で開催された ダートマス会議 がきっかけとなり、ジョン・マッカーシーらによって、人工知能の研究が本格的に開始されました。

迷路探索ゲーム、言語の翻訳など、様々な分野で人工知能の研究が進みました。

第一次AIブーム
第一次AIブーム


特に、1956年に開発されたゲームプログラム「マーチングメン」は、迷路の中を自律的に移動し、目的地に到達することができるプログラムで、それまで人間しかできなかったことを人工知能が実現したことであり、人工知能の大きな可能性を示した出来事でした。

しかし、第一次AIブームは1970年代に終焉を迎えました。人工知能が期待されたほど実用化できなかったことが原因です。

第一次AIブームの失敗から、人工知能の研究は停滞し、冬の時代を迎えました。

第二次AIブーム

そして1980年代になると、コンピュータの性能が向上し、人工知能の研究が再び活発化しました。

第二次AIブーム
第二次AIブーム

これが、第二次AIブームです。

第二次AIブームでは、エキスパートシステム や機械学習など、様々な新しい技術が開発され、人工知能は様々な分野で実用化されるようになりました。

エキスパートシステム とは、特定の分野の専門家が持つ知識をコンピュータに組み込み、その分野の専門家のように問題を解決できるシステムです。機械学習とは、コンピュータがデータを学習して、自分で問題を解決できるようになる技術です。

第三次AIブーム

そして、2000年代にインターネットの普及が加速したことがきっかけとなり、第三次AIブームが起こりました。

第三次AIブーム
第三次AIブーム

第三次AIブームで注目されている技術の一つが、「ディープラーニング」です。ディープラーニングは、人工知能が自分でデータを学習して、自分で問題を解決できる技術です。

ディープラーニングは、画像認識や自然言語処理など、様々な分野で高い精度を発揮しています。

ディープラーニング技術の発展と大規模言語モデル誕生

ディープラーニング技術の発展により、対話型AIの精度が飛躍的に向上しました。
これにより、対話型AIは様々な分野で実用化されるようになりました。

例えば、チャットボット では、ディープラーニング技術によって、人間と自然な会話をすることができるようになりました。バーチャルアシスタントでは、ディープラーニング技術によって、ユーザーの指示を正確に理解して実行できるようになり、様々なタスクを支援することが可能になりました。

従来のAIと 大規模言語モデル の大きな違いは、その学習方法です。
従来のAIは、人間がルールや指示を明示的に与えて学習します。一方、大規模言語モデルは、膨大なデータ(パラメーター)から自律的に学習します。

従来型言語AIの仕組み
従来型言語AIの仕組み
大規模言語モデル(LLM)の仕組み
大規模言語モデル(LLM)の仕組み

この違いにより、大規模言語モデルは従来のAIよりも柔軟で、幅広いタスクを実行することができます。

例えば、大規模言語モデルは、テキストの生成、言語の翻訳、さまざまな種類の創造的なコンテンツの作成、質問への回答を有益な方法で行うことができます。一方、従来のAIは、特定のタスクに特化していることが多いです。

大規模言語モデルを用いた対話型AI(チャットボット)は、非常に大きな可能性を秘めています。

対話型AIの構造

対話型AIの構造は、以下のようなイメージになっています。

まず、大規模言語モデル(LLM)を含むアプリケーションは、クラウドで動作しています。
そして、LLMが大規模なデータセットのトレーニングと、ユーザーからのリクエストを処理します。有名なLLMには、「GPT」や「LaMDA」、「PaLM」などがあります。

最後に、チャットボットなどのアプリケーションがユーザーからのテキストの入力を受け取り、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブコンテンツの作成、質問への回答を有益な方法で行うことができます。これがChatGPTやBardの部分となります。

今後は生成AIとして、Microsoft 365に「Copilot」という名称でGPTが組み込まれたり、Google Workspaceに「Duet AI for Google Workspace」という名称で「PaLM2」が組み込まれます。これらの動きから、RPA は次世代へ移行していくと思われます。

さらに、カスタマーセンターや医療など、特定業種向けの組み込みアプリケーションがどんどん産声をあげていくことでしょう。

  • ユーザーが活用するフロントエンド部分例)特定業種向けチャット、MS-365Copilotなど
  • 与えられたプロンプトに応じてLLMを活用
    例)ChatGPT、Bard、Bing Chatなど
  • クラウドにホスティングされた大規模言語モデル
    例)GPT、LaMDA、PaLMなど
  • AIを稼働させるインフラ部分
    例)Azure、Google Cloudなど

大規模言語モデル(LLM)の歴史

歴史と呼ぶほど長いスパンではないですが、対話型AIは急激な発展を遂げました。

Open AIの最新LLM「GPT-4」
Open AIの最新LLM「GPT-4」

LLMは2018年にGoogleのBERT発表に始まり、Open AIの「GPT-3」、Google Brainの「Switch Transformer」、Bardに搭載されていた「LaMDA」、Deep Mindの「Gopher」、そして最近発表されたOpen AIの「GPT-4」、先日Google I/O 2023で発表された最新の「PaLM2」と、たった5年の間に大きな発展を遂げてきました。

以下は代表的なLLMの年表をまとめたものです。

    
モデル名 リリース 開発元 パラメーター数その他
BERT 2018.10 Google(米) 3億4千万 後にXLNet、ALBERT、T5、ELECTRAへと進化
GPT-3 2020.06 Open AI(米) 1,750億 非営利団体
子会社Open AI LPがMicrosoftの投資受入
Switch Transformer 2021.02 Google Brain(米)) 1兆6000億 研究チーム
後にOSS化
悟道2.0 2021.06 BAAI(中) 1兆7500億 中国語・英語
LaMDA 2021.11 Google(米) 5,300億 Bardに搭載
Gopher 2021.12 Deep Mind(英) 2,800億 2014年にAlphabetが買収
後にGoogle Brainと統合
HyperCLOVA 2022.01 LINE(日)
NAVER(韓)
820億 日本語
PaLM 2022.04 Google(米) 5,400億 次期Google検索向け
OPT 2022.05 Meta(米) 1,750億 OSS
BLOOM 2022.07 Big Science(仏) 1,760億 OSS
GPT-4 2023.03 Open AI(米) 数千億~1兆 MicrosoftがBingに採用
PaLM2 2023.05 Google(米) 5,400億 次期Google検索で採用
BardはLaMDAから移行

LLMを使った代表的な対話型AI「ChatGPT」については、以下の記事を御覧ください。

検索エンジン×対話型AI

対話型AIがMicrosoft Bingに組み込まれ、久々に検索エンジンは大きな変化を遂げ、新しいフェーズに入ったと言えます。

検索エンジンのシェア争い

国内の検索エンジンシェア
国内の検索エンジンシェア

検索エンジンは、長らくこのグラフのように、Googleが圧倒的なシェアを握ってきました。

少しずつ新しい検索エンジンが台頭してきているとはいえ、実質「Yahoo! Japan」はGoogleの検索エンジンを使用しているため、Googleが検索エンジン全体の約92%のシェアを誇っていることが分かります。

そのような中、Microsftの次の一手がGPTをBingに組み込むことでした。

変わる検索エンジン

Bing&GPT-4
Bing&GPT-4

Bingに「GPT-4」を組み込んで検索エンジンを強化

2023.05に一般ユーザー向けにもリリースされ、既に検索エンジンのシェアを伸ばしている。

Google&PaLM2
Google&PaLM2

開発中の「PaLM2」を組み込んで検索エンジンを強化

2023.05.11に発表。広告連動やコード開発、画像生成なども組み込んだプロダクトの開発を進めている(Project Magi)

Open AIの子会社「Open AI LP」に大規模な投資をしたMicrosoftが、Bing検索エンジンに「GPT-4」を組み込み、遂に検索にチャットボットが統合されることになりました。

「Bing Chat」は、従来の検索に加え、チャットボットを使うことで、少しずつシェアを上げつつあります。

チャット機能により、検索はどう変わるか?

従来の検索エンジンでは、キーワードに基づいてWebページを検索します。
検索エンジンは、膨大な量のウェブサイトをスキャンして、ユーザーの検索と一致するものを見つけます。これらの結果は、ウェブサイトの人気度、関連性、使用されているキーワードなど、さまざまな要素に基づいてランク付けされます。

それに対してBingChatでは、ユーザーが質問をするとチャットが関連するWebページを検索し、情報を取りまとめて回答します。

ユーザーはチャットに質問したり、指示を与えたりすることができます。

従来の検索結果
従来の検索結果
チャットボットを使った検索結果
チャットボットを使った検索結果

チャットは、ユーザーの質問を理解し、検索結果に基づいて回答を返すことができます。また、ユーザーが興味を持っている可能性のある追加の情報も提供することができます。

チャットが返答してくる答えには真実もあれば、誤りもあるため、どのサイトが情報の参照元になっているかを表示してくれるのも、非常に親切ですね。

SEOへの影響について

今後、シェアが大きなGoogle検索にチャットボットが搭載されることは、SEO戦略に多くの影響を与える可能性があります。最も重要な変更の1つは、質の高いコンテンツの重要性が高まることです。

  1. 質問をより適切に理解し、より関連性の高い結果を表示できるようになる。
  2. より視覚的かつインタラクティブな結果が表示されるようになる。
  3. ユーザーがチャットを使い込むことで、検索結果はよりパーソナライズされていく。

それにより、質の高いコンテンツを作成することがより重要となってきます。

  • 有益で包括的、且つニーズを満たし、創造的で独創的で他のコンテンツと差別化できること。
  • 視覚的およびインタラクティブなコンテンツで、ユーザーの注意を引く必要性。
  • 検索結果がよりパーソナライズされることにより、ユーザーのニーズや好みに関連するコンテンツを作成することが重要になる。

今後、WEBビジネスを展開する企業に必要なスキル

対話型AI(生成AI)はユーザーの検索意図をより正確に把握し、関連する検索結果を表示できるようになるため、SEOに大きな影響を与える可能性があります。

具体的なことは、今後 Google や Microsoft がどのような動きをしていくかをリサーチする必要がありますし、Amazon も生成AIを使った検索エンジンを開発しているようです。

この3社の台頭から見えてくることは、生成AIはクラウドプラットフォームに価値付けをしていくためのツールでもあるということです。

それらプラットフォーマーの思惑とは関係なく、対話型AIをユーザー目線で見れば、対話型AIがウェブサイトやその他のユーザーエクスペリエンスを向上させることで、ユーザーがウェブサイトに戻ってくる可能性が高くなり、検索エンジンの結果ページ(SERP)でより高い評価を得ることができるというベネフィットがあります。

  • 対話型AIを理解し、その機能と制限を認識する
  • 対話型AIを活用して、ウェブサイトのユーザーエクスペリエンスを向上させる
  • 対話型AIの最新のトレンドとベストプラクティスを学び続ける

こういったユーザーのニーズを理解し、そのニーズを満たすコンテンツを提供するためにも、対話型AIを理解する必要があるでしょう。そのひとつの手段として、「プロンプトエンジニアリング」のスキルを身につけることがお勧めです。

プロンプトエンジニアリングのスキルにより、チャットボットに適切な質問をインプットすることができれば、対話型AIを使用するユーザーに対して、ウェブサイト側がどんな要求を満たす必要があるのかを、予測することができるからです。

また、対話型AIをコンテンツ制作や分析、リサーチなどに活用すれば、よりユーザーニーズを反映させたコンテンツを制作することができるはずです。

そのためにも、今後とも対話型AIの最新のトレンドとベストプラクティスを学び続けることが重要となってくることでしょう。

Google からリリースされた「Gemini(ジェミニ)」

2023年5月に開催されたGoogleの開発者向けイベント「Google I/O 2023」の中で、開発が発表された、「PaLM 2」の上位セットとなる生成AIである「Gemini」が、2024年2月7日に正式リリースされました。

Bardは、これをもって「Gemini」という名称に変更されました。

「Gemini」は画像・テキストのみならず、「画像」「文字」「音声」「動画」といった複数の要素を同時に扱う能力を持っている「マルチモーダル」なAIエンジンです。

Geminiには「Ultra」「Pro」「Nano」の3モデルが用意されており、Proが一般向けに無償公開されました。

同時に、Androidスマートフォン向けにアプリとして公開されました(日本向け、韓国向けは翌週予定)。

便利な機能と上位サービス

Android版の「Gemini」は、ユーザーが選択すればGoogleアシスタントのようにGeminiを利用できます。Googleアシスタントボタンの長押しで「Gemini」を呼び出せるため、手軽に高性能なアシスタンスを得ることができます。

Geminiでは、Bardで後から追加になった機能(GoogleマップやYouTubeなどのサービスと連携して検索結果を出す機能)が同様に使用できます。

Geminiで最上位の能力を持つ「Gemini Ultra」は、「Gemini Advanced」という名称で有償利用できます。

Google Driveのストレージ容量を増やせる「Google One」に、「Google One AI Premium Plan」(月額2900円、米国では月額19.99ドル)という新プランが登場しました(米国先行)。

Gemini Advancedサービスでは、プログラムのコーディング、論理的推論、ニュアンスを含む指示の理解など処理できるタスクの能力が大幅に向上するとのことです。

具体的な用途として、家庭教師的な使い方を想定しているそうです。
たとえば、学習状況にあわせた段階的なアシスタンスや、クイズや議論を作成してくれるなどの使い方ができるそうです。

マーケティング分析やブレストの相手など、今後さらに用途が広がりそうな予感がします。

詳しいレビューは以下のページを御覧ください。

動画を作成できる生成AIモデル「Sora(ソラ)」

OpenAIは2024年2月15日、シンプルなテキストプロンプトから最長1分の動画を作成できる新しい生成AIモデル「Sora(ソラ)」を発表しました。日本語の「空」からインスピレーションを得たネーミングだそうです。

正式なリリースはまだ未定とのことですが、「複数の人物や特定の動き、被写体や背景の正確なディテールを含む複雑なシーン」を表現する最長1分間の動画を素早く作成できるとのことです。

そのクオリティからも容易に想像がつくのはディープフェイクやデマ動画の蔓延。安全性を評価する専門家チームが入って、評価を進めるとのことです。

恐らく、Soraには暴力・ポルノの禁止、実在する人物の取り込みやよく知られたアーティストの表現方法の取り込みの禁止などの制限がかけられることが想定されています。

WIREDの記事を参照

▼略歴

  • 東京都世田谷区生まれ
  • 経営・財務の分野を学び、建設・不動産業界にて経理部に在席。
  • 家電メーカーにて直営店舗の運営やマーチャンダイザーを経験。PCのBTOビジネス推進やホームネットワークの普及推進、デジタル家電活用のセミナー講師、直営の免税店を経験。
    同時に、グループ企業のWEBマスターとして、ポータルサイト、eコマースサイトの制作・運営、情報セキュリティマネジメント、ナレッジマネジメントを推進。
  • 家電量販店にて情報部門リーダー、都心店舗の店長を経験。
    その後、店舗開発部で新店舗出店時のレイアウト設計やスタッフの育成、出店準備、VMDの企画・制作などを歴任。
  • システムインテグレーターとして、手術室及び血管造影室の画像・映像配信システムの開発・設計、エンジニアリングを担当。さらに、遠隔手術支援システムの企画・開発を担当し、専門誌へ医師の偏在問題に関する論文を寄稿。
    また、医療向けシステムやフェリーの設備を安全にリモートメンテナンスするソリューションを開発・運用。
    その後、会社のリブランディングプロジェクトへの参画、デジタルマーケティング組織の立ち上げ、メディカル組織のマネジメントを経験。
  • 論文 医師偏在の課題と向き合う遠隔手術支援ソリューション(CiNiiで検索
  • 論文 手術室の生産性向上に貢献する医療映像ソリューション(CiNiiで検索
  • 現在、企業向けにIT技術者育成セミナー(ネットワーク/ウェブデザイン等)を主催しております。

送信できませんでした

入力内容をご確認の上、再度お試しください。
問題が続く場合はお電話でお問い合わせください。