第2章では、ChatGPTやGeminiに代表される「生成AI」がどのような仕組みで動いているのかを解説します。従来のAIとの違い、主要な生成モデルの種類、そして現代AIの革命とも呼ばれるTransformerの仕組みまで、わかりやすくまとめました。
1. 従来のAIと生成AIの違い
AIには大きく2種類の役割があります。「分類・予測」を得意とする識別系AIと、「新しいコンテンツを作り出す」生成AIです。
データの分類・予測を行うことが得意
例:「明日の株価は上がるか?」
学習データをもとに全く新しいデータを創り出す
例:「企画書を作って」
2. 基盤モデル(Foundation Model)とは
現在の生成AIの心臓部が基盤モデル(Foundation Model)です。大量のデータ(テキスト・画像など)を使って大規模な事前学習(Pre-training)を行った強力なAIモデルのことを指します。
この「基盤」があるおかげで、翻訳・要約・プログラム作成など、少しの追加学習(ファインチューニング)やプロンプトの工夫だけで様々なタスクをこなせます。GeminiやGPT-4などがこれに該当します。
3. 代表的な生成モデルの種類
🖼️ 画像生成でよく使われるモデル
データを一度圧縮(エンコード)して特徴を抽出し、その特徴から元のデータを復元(デコード)するように学習します。再現した画像は少しぼやけやすい特徴があります。
「偽物を作るAI(生成器)」と「本物か偽物かを見破るAI(識別器)」の2つを競争させることで、非常にリアルな画像を生成します。ディープフェイク技術の基盤にもなった手法です。
画像に少しずつノイズ(砂嵐のようなもの)を足して完全にノイズ化した後、そのノイズを少しずつ取り除いて元の画像を復元する過程を学習します。Stable DiffusionやMidjourneyなど、現在の高精度な画像生成AIの主流です。
💬 テキスト生成(LLM)で使われるモデル
2017年にGoogleの研究者が発表した画期的なモデル。現在のLLM(大規模言語モデル:ChatGPTやGeminiなど)のほぼすべての基礎となっており、現代の生成AIブームを生んだ技術です。
4. Transformerの革命:アテンション機構
なぜTransformerはそれほど革命的だったのか?その核心が「Attention(アテンション:注意)機構」です。
Transformer以前の限界:RNN
| 比較項目 | RNN(旧来の主流) | Transformer |
|---|---|---|
| 文の処理方法 | 先頭から順番に処理 | 全単語を同時に処理 |
| 長文への対応 | 最初の内容を忘れやすい | 長距離の関係も把握できる |
| 学習速度 | 並列処理が難しく遅い | 並列処理で大量高速学習 |
Self-Attention(自己アテンション)機構とは
文の中の「どの単語とどの単語が強く関連しているか」を同時に計算する仕組みです。以下の例で確認してみましょう。
りんごを
食べた。
それは
赤かった。
①全単語を同時に処理できる → 並列化で学習が爆速
②離れた単語の関係も正確に把握 → 長文・複雑な文脈に強い
③大量データの学習に適している → LLMの爆発的な性能向上につながった
📝 確認テスト(チェックポイント)
この記事の内容を理解できているか、以下の3問で確認してみましょう。
- 現在の主流な画像生成AI(Stable Diffusionなど)で使われている、ノイズを取り除きながら画像を生成するモデルは何ですか?
- 現在の大規模言語モデル(LLM)の基礎となっている、2017年にGoogleが発表したアーキテクチャの名前は何ですか?
- Transformerが長文の処理や高速な計算を実現できた、核となる仕組みを「○○○○○機構」と呼びます。何機構でしょうか?
① 拡散モデル(Diffusion Model) / ② Transformer(トランスフォーマー) / ③ Self-Attention(自己アテンション)機構
