← 記事一覧

2025-07-05

生成AIの仕組みをわかりやすく解説【初心者向け】

ChatGPTはどうやって文章を作るの?トランスフォーマー・トークン・パラメータなど生成AIの仕組みを初心者向けにやさしく解説します。

生成AIとは何か

生成AI(Generative AI)とは、テキスト・画像・音声・動画などのコンテンツを新たに「生成」できるAIです。従来のAIが「分類する・予測する」だけだったのに対し、生成AIは「新しい何かを作り出す」点が最大の違いです。ChatGPTによる文章生成、Stable Diffusionによる画像生成、Suno AIによる音楽生成がその代表例です。

トランスフォーマー(Transformer)とは

トランスフォーマーは2017年にGoogleが発表した深層学習の構造(アーキテクチャ)で、現在のほぼすべての大規模言語モデルの基盤となっています。最大の特徴は「アテンション機構」という仕組みで、文章中の単語同士の関係(どの単語がどの単語と強く関連しているか)を同時に学習できます。ChatGPTの「GPT」はGenerative Pre-trained Transformerの略で、まさにこの構造を使っています。

トークンとは

生成AIは文章をそのまま処理するのではなく、「トークン」という単位に分割して処理します。英語では単語や単語の一部、日本語では文字や形態素がトークンに相当します。「コンテキストウィンドウ」とはAIが一度に処理できる最大トークン数のことで、数値が大きいほど長い文章を扱えます。試験では「トークン」「コンテキストウィンドウ」の定義が問われます。

パラメータとは

パラメータとは、AIモデルが学習によって調整する内部の数値(重み)のことです。パラメータ数が多いほど複雑なパターンを学習できます。GPT-3は約1750億パラメータと言われており、「パラメータ数が多い=高性能」という傾向がありますが、そのぶん計算コストも高くなります。

ファインチューニングとは

ファインチューニングとは、大規模なデータで事前学習済みのモデルを、特定の用途に合わせた少量のデータで追加学習させることです。例えば「医療文書専用のAI」「法律相談専用のAI」を作る際に使われます。ゼロから学習するよりはるかに少ないデータ・コストで特化したモデルを作れるのがメリットです。

RAG(検索拡張生成)とは

RAG(Retrieval-Augmented Generation)とは、AIが回答を生成する前に外部のデータベースや文書を検索し、その情報を参照しながら回答する技術です。LLMが持つ「学習済み知識が古い(カットオフ問題)」「ハルシネーションが起きる」という弱点を補う手法として注目されています。企業内のドキュメントをAIに参照させるユースケースで広く使われています。

マルチモーダルとは

マルチモーダルとは、テキストだけでなく、画像・音声・動画など複数の種類(モダリティ)の入出力を扱えるAIのことです。例えばGeminiは「写真を見て説明文を生成する」「音声を聞いてテキストに変換する」などが可能です。試験では「モダリティ」という言葉の意味とマルチモーダルAIの具体例を問われます。

まとめ・学習アドバイス

生成AIの仕組み分野は「横文字の用語が多い」のが特徴です。トランスフォーマー・トークン・パラメータ・ファインチューニング・RAG・マルチモーダルの6つを最優先で覚えましょう。難しく考えすぎず「ざっくりどういう概念か」を掴むことが大切です。本サイトのクイズで繰り返し確認するのが近道です。

実際に問題を解いて理解を深めましょう。

無料クイズで練習する →