Transformers & Embedding|the Tech Behind LLMs
作成日:2025-09-28
更新日:2025-09-30

技術の中核

Transformer?

実は、Transformer が重要なの
Transformer こそ LLM の中核技術
Transformers are the core technology behind modern Large Language Models (LLMs) such as GPT.
トランスフォーマーは、GPTのような最新の大規模言語モデル(LLM)を支える中核技術。
Originally introduced in 2017
2017年に登場した。
用語
Large Language Models (LLMs) | 大規模言語モデル(LLM) |
natural language processing | 自然言語処理 |
model long-range dependencies in text | テキストにおける長距離依存関係をモデル化する |
training efficiently in parallel | 並列処理による効率的な学習 |

GPT の T は、Transformer なの
GPT is a Transformer-based model
GPT stands for Generative Pre-trained Transformer.
- Generative: It generates new text.
- 新しいテキストを生み出す
- Pre-trained: It is trained on massive text corpora beforehand.
- (膨大なデータで)事前学習された
- Transformer: The neural network architecture that makes it all work.
- トランスフォーマー
The key innovation is not in the generative or pre-training aspects,
but in the transformer mechanism itself.
イノベーションの本質は、生成や事前学習ではない。トランスフォーマー機構 にある。
用語
Generative | 生成 |
Pre-training | 事前学習 |
The neural network architecture | ニューラルネットワーク |

「生成AI」なので、「生成」が重要だと思ったけど違った

中核としては、生成よりも Transformer が大きい
そして、Transformer を動かすのはEmbeddingというもの
Tokens and Embeddings

トークンと埋め込み
- Text is first broken into tokens, small chunks like words or subwords.
- テキストはまず トークン(単語やサブワードなどの小さな単位)に分割される
- Each token is mapped to a high-dimensional vector, called an embedding.
- 各トークンは 埋め込みベクトル と呼ばれる高次元の数値に変換される
Similar words → embeddings close together.

意味の近い単語 → 空間上で近い位置に埋め込まれる
- GPT-3: embeddings of 12,288 dimensions, vocabulary of ~50,000 tokens.close together.
- GPT-3では12,288次元の埋め込み、約5万語の語彙
- Over 600 million parameters just for embeddings.
- 埋め込み層だけで6億以上のパラメータ
This creates a geometric space where meaning can be represented numerically.
これ(embeddings)により「意味」が数値空間として表現される
用語
tokens | トークン(言葉が分割されたもの) |
chunks | チャンク(かたまり) |
embedding | ベクトルに埋め込むこと(意味を数値にする) |

「意味」を、「数値」にする?

AIは、意味を考えてるわけじゃなく、
数値を読み取っているの
Embedding の仕事|意味空間に埋め込んで数値化する
- 言葉を「数値ベクトル」に変換したもの
- 単なる変換ではなく、意味の幾何学空間への写像
- 「意味的な距離や関係が反映されるように学習された空間」
- 例)
- king − man + woman ≈ queen のように、意味の関係性が計算できる
- (キング – 男 + 女 → クイーン)
- 自然言語 → 意味空間 に「埋め込む」ことで、単語や文章を「数値ベクトル」として扱えるようになる
- すると、内積・距離・ベクトル演算みたいな数学的な計算が可能になる
具体例:
- 距離が近い → 意味が似てる(例: cat と dog)
- ベクトルの方向性 → 関係性を表現できる
- king − man + woman ≈ queen
- 文章全体もベクトル化されるから、類似検索・クラスタリング・分類ができる。
embedding は「ただの翻訳」ではなく、意味を数値空間に写して計算可能にする技術

じゃあ Transformer は何をする?

embeddingを受け取って、変換するの
EmbeddingとTransformerの関係
1. Embedding層(意味を数値化する)
テキスト: ["cat", "sat", "mat"]
↓ トークン化
トークン: [42, 513, 78] (数字ID)
↓ Embedding行列を参照
埋め込みベクトル:
"cat" → [0.12, -0.98, 1.54, …]
"sat" → [0.87, 0.33, -0.45, …]
"mat" → [-0.22, 1.15, 0.09, …]
ここで初めて 「意味を数値に」写している。
ただし、この段階ではまだ「文脈」は考慮されてない。

文脈を読み取って変換するのが Transformer
2. Transformer本体(文脈を反映して更新する)
入力: 埋め込みベクトル列
↓
[ Attention ]
- Query・Key・Value を計算
- 単語同士が「どれだけ関係あるか」を重み付け
↓
[ Feed-forward ]
- ベクトルをさらに非線形変換
↓
[ Residual + Normalization ]
- 安定化させつつ情報保持
ここで 「文脈に応じたベクトル」 に進化する。
例: “cat” が “sat” と一緒に出るとき、
「座った猫」というニュアンスがベクトルに反映される。

最後は Unembedding もするよ
3. 出口(Unembedding + Softmax)
文脈付きベクトル → Unembedding行列
→ 語彙全体のスコア
→ Softmaxで確率分布
→ 次の単語を予測
「文脈を考慮した数値」から「次の単語の確率」へ戻すステップ。
まとめイメージ
- Embedding:意味を「数値空間」に置く(入り口)
- Transformer:その数値を「文脈で加工」する(本体)
- Unembedding:数値から再び「単語候補」に戻す(出口)
are the core technology

Transformer のなかの Attention とはこれ
2025-09-28
編集後記:
この記事の内容がベストではないかもしれません。
記事一覧
-
[ChatGPT]How to workwith it. ChatGPTとの付き合い方|AIを犬型ロボットとして理解する(2025年) -
[AI Bot]作ってみるFeeling-to-Words Python×OpenAI|感情の言語化ボットを作ってみる -
Why Pythonfor AI? なぜAI開発はPythonでおこなうの? -
[What's AI ?]Basic Knowledge 生成AIの基礎知識|四天王の得意技とディープフェイクまとめ(2025年) -
[What's AI?]Intent Classification Intent Classification(意図分類)|チャットボットが自然に会話するために必要なもの -
[What's AI?]Attentionas a spotlight 【AIの仕組み】Attentionは言葉に光を当てるスポットライト