LinkSwitch

アイアムビリーバー

ギター練習とDTPとウェブ解析

AIが「絵を描き」「文章を書く」のはなぜ?生成AIの仕組みを徹底解説

2 views

第2章では、ChatGPTやGeminiに代表される「生成AI」がどのような仕組みで動いているのかを解説します。従来のAIとの違い、主要な生成モデルの種類、そして現代AIの革命とも呼ばれるTransformerの仕組みまで、わかりやすくまとめました。

1. 従来のAIと生成AIの違い

AIには大きく2種類の役割があります。「分類・予測」を得意とする識別系AIと、「新しいコンテンツを作り出す」生成AIです。

🔍 従来のAI(識別系AI)

データの分類・予測を行うことが得意

例:「これは猫の画像か?」
例:「明日の株価は上がるか?」

✨ 生成AI(Generative AI)

学習データをもとに全く新しいデータを創り出す

例:「猫の画像を描いて」
例:「企画書を作って」


2. 基盤モデル(Foundation Model)とは

現在の生成AIの心臓部が基盤モデル(Foundation Model)です。大量のデータ(テキスト・画像など)を使って大規模な事前学習(Pre-training)を行った強力なAIモデルのことを指します。

💡 基盤モデルの何がすごいのか?

この「基盤」があるおかげで、翻訳・要約・プログラム作成など、少しの追加学習(ファインチューニング)やプロンプトの工夫だけで様々なタスクをこなせます。GeminiやGPT-4などがこれに該当します。


3. 代表的な生成モデルの種類

🖼️ 画像生成でよく使われるモデル

🗜️
① VAE(変分オートエンコーダ)

データを一度圧縮(エンコード)して特徴を抽出し、その特徴から元のデータを復元(デコード)するように学習します。再現した画像は少しぼやけやすい特徴があります。

⚔️
② GAN(敵対的生成ネットワーク)

偽物を作るAI(生成器)」と「本物か偽物かを見破るAI(識別器)」の2つを競争させることで、非常にリアルな画像を生成します。ディープフェイク技術の基盤にもなった手法です。

🌫️
③ 拡散モデル(Diffusion Model)現在の主流

画像に少しずつノイズ(砂嵐のようなもの)を足して完全にノイズ化した後、そのノイズを少しずつ取り除いて元の画像を復元する過程を学習します。Stable DiffusionやMidjourneyなど、現在の高精度な画像生成AIの主流です。

💬 テキスト生成(LLM)で使われるモデル

🤖
④ Transformer(トランスフォーマー)LLMの基礎

2017年にGoogleの研究者が発表した画期的なモデル。現在のLLM(大規模言語モデル:ChatGPTやGeminiなど)のほぼすべての基礎となっており、現代の生成AIブームを生んだ技術です。


4. Transformerの革命:アテンション機構

なぜTransformerはそれほど革命的だったのか?その核心が「Attention(アテンション:注意)機構」です。

Transformer以前の限界:RNN

比較項目 RNN(旧来の主流) Transformer
文の処理方法 先頭から順番に処理 全単語を同時に処理
長文への対応 最初の内容を忘れやすい 長距離の関係も把握できる
学習速度 並列処理が難しく遅い 並列処理で大量高速学習

Self-Attention(自己アテンション)機構とは

文の中の「どの単語とどの単語が強く関連しているか」を同時に計算する仕組みです。以下の例で確認してみましょう。

📌 アテンション機構のイメージ
彼は
りんごを
食べた。
それは
赤かった。
👆「それ」が「りんご」を指しているという関係性を、AIが文全体を見渡して瞬時に把握できます。順番に処理しないため、どれだけ離れた単語同士の関係も捉えることができます。

✅ Transformerが強い理由まとめ

①全単語を同時に処理できる → 並列化で学習が爆速
②離れた単語の関係も正確に把握 → 長文・複雑な文脈に強い
③大量データの学習に適している → LLMの爆発的な性能向上につながった


📝 確認テスト(チェックポイント)

この記事の内容を理解できているか、以下の3問で確認してみましょう。

  • 現在の主流な画像生成AI(Stable Diffusionなど)で使われている、ノイズを取り除きながら画像を生成するモデルは何ですか?
  • 現在の大規模言語モデル(LLM)の基礎となっている、2017年にGoogleが発表したアーキテクチャの名前は何ですか?
  • Transformerが長文の処理や高速な計算を実現できた、核となる仕組みを「○○○○○機構」と呼びます。何機構でしょうか?
💡 答えのヒント

① 拡散モデル(Diffusion Model) / ② Transformer(トランスフォーマー) / ③ Self-Attention(自己アテンション)機構