第3章では、生成AIを実社会でどう使いこなすかという最新トレンドを解説します。LLMの弱点を補う「RAG」、自律的に動く「AIエージェント」、そして「マルチモーダルAI」まで、今まさに注目されている技術をわかりやすくまとめました。
1. LLM(大規模言語モデル)の弱点
GeminiやChatGPTのようなLLMは非常に賢い反面、実務で使う際に問題になる3つの弱点があります。
学習データにないことや知らないことについて、あたかも本当のことのように嘘をついてしまう現象です。自信満々に間違った情報を返すことがあるため、特に業務利用では注意が必要です。
学習が終わった時点の知識しか持っていないため、今日のニュースや直近の出来事には答えられません。
世の中に公開されていない企業の社内マニュアルや機密データについては、そもそも学習していないため答えられません。
これらの弱点をまとめて解決する技術が、次に紹介する「RAG」です。
2. RAG(検索拡張生成)
RAGは Retrieval-Augmented Generation(リトリーバル・オーグメンテッド・ジェネレーション) の略で、現在、企業が生成AIを導入する際の大本命となっている技術です。
たとえば「社内専用AIチャットボット」は、RAGの代表的な活用例です。外部には公開されていない社内マニュアルや規程集をデータベースに入れておき、社員の質問に対してAIが正確な情報を参照しながら答えてくれます。
3. AIエージェント
チャットボットが「質問に答えるだけ」の存在だとすれば、AIエージェントは「自律的に考えて行動するAI」です。
- 質問に答えるだけ
- 人間が次の指示を出す必要がある
- 1つの会話ターンで完結
- ツールを自分では使えない
- ゴールに向けて自ら計画を立てる
- 複数ステップを自律的に実行
- ツール(検索・計算・ファイル操作)を自ら使用
- 結果を検証しながらタスクを完遂
AIエージェントが動く流れ
例えば「競合他社の最新動向をまとめたレポートを作って」と指示した場合:
今、世界中のAI開発がこの「エージェント化」に向かっています。単なる「賢い辞書」から、「自律的に働く優秀な部下」へと進化しつつあり、ビジネスの自動化・効率化において最も注目されている分野です。
4. マルチモーダルAI
「テキスト」だけでなく、複数の種類(モード)のデータを同時に理解・生成できるAIのことです。
スマートフォンのカメラで数式を映しながら「この解き方を音声で教えて」と質問し、AIが音声で解説してくれるような機能がまさにこれです。GeminiはこのマルチモーダルAI性能が非常に高いことで知られています。
📝 確認テスト(チェックポイント)
この記事の内容を理解できているか、以下の3問で確認してみましょう。
- AIが事実とは異なる内容を、あたかも本当のように生成してしまう現象を何と呼びますか?
- 企業が自社の社内マニュアルなどをAIに読み込ませて、社内専用の正確なAIチャットボットを作る際によく使われる技術(検索拡張生成)の略称アルファベット3文字は何ですか?
- 「テキスト」だけでなく「画像」や「音声」など複数の種類のデータを統合して処理できるAIのことを「〇〇〇〇〇〇AI」と呼びます。何でしょうか?
① ハルシネーション / ② RAG(Retrieval-Augmented Generation) / ③ マルチモーダルAI
