Transformers & Embedding｜the Tech Behind LLMs

作成日：2025-09-28

更新日：2025-09-30

サムネイル — ［What's AI?］TransformersEmbedding

Transformer が
技術の中核

Transformer？

実は、Transformer が重要なの

Transformer こそ LLM の中核技術

Transformers are the core technology behind modern Large Language Models (LLMs) such as GPT.

トランスフォーマーは、GPTのような最新の大規模言語モデル（LLM）を支える中核技術。

Originally introduced in 2017

2017年に登場した。

用語

Large Language Models (LLMs)	大規模言語モデル（LLM）
natural language processing	自然言語処理
model long-range dependencies in text	テキストにおける長距離依存関係をモデル化する
training efficiently in parallel	並列処理による効率的な学習

GPT の T は、Transformer なの

GPT is a Transformer-based model

GPT stands for Generative Pre-trained Transformer.

Generative: It generates new text.
- 新しいテキストを生み出す
Pre-trained: It is trained on massive text corpora beforehand.
- （膨大なデータで）事前学習された
Transformer: The neural network architecture that makes it all work.
- トランスフォーマー

The key innovation is not in the generative or pre-training aspects,

but in the transformer mechanism itself.

イノベーションの本質は、生成や事前学習ではない。トランスフォーマー機構 にある。

用語

Generative	生成
Pre-training	事前学習
The neural network architecture	ニューラルネットワーク

「生成AI」なので、「生成」が重要だと思ったけど違った

中核としては、生成よりも Transformer が大きい
そして、Transformer を動かすのはEmbeddingというもの

Tokens and Embeddings

トークンと埋め込み

Text is first broken into tokens, small chunks like words or subwords.
- テキストはまず トークン（単語やサブワードなどの小さな単位）に分割される
Each token is mapped to a high-dimensional vector, called an embedding.
- 各トークンは 埋め込みベクトル と呼ばれる高次元の数値に変換される

Similar words → embeddings close together.

意味の近い単語 → 空間上で近い位置に埋め込まれる

GPT-3: embeddings of 12,288 dimensions, vocabulary of ~50,000 tokens.close together.
- GPT-3では12,288次元の埋め込み、約5万語の語彙
Over 600 million parameters just for embeddings.
- 埋め込み層だけで6億以上のパラメータ

This creates a geometric space where meaning can be represented numerically.

これ（embeddings）により「意味」が数値空間として表現される

用語

tokens	トークン（言葉が分割されたもの）
chunks	チャンク（かたまり）
embedding	ベクトルに埋め込むこと（意味を数値にする）

「意味」を、「数値」にする？

AIは、意味を考えてるわけじゃなく、
数値を読み取っているの

Embedding の仕事｜意味空間に埋め込んで数値化する

Embedding（埋め込み）

言葉を「数値ベクトル」に変換したもの
- 単なる変換ではなく、意味の幾何学空間への写像
- 「意味的な距離や関係が反映されるように学習された空間」
例）
- king − man + woman ≈ queen のように、意味の関係性が計算できる
- （キング – 男 + 女 → クイーン）

自然言語 → 意味空間に「埋め込む」ことで、単語や文章を「数値ベクトル」として扱えるようになる
すると、内積・距離・ベクトル演算みたいな数学的な計算が可能になる

具体例：

距離が近い → 意味が似てる（例: cat と dog）
ベクトルの方向性 → 関係性を表現できる
- king − man + woman ≈ queen
文章全体もベクトル化されるから、類似検索・クラスタリング・分類ができる。

embedding は「ただの翻訳」ではなく、意味を数値空間に写して計算可能にする技術

じゃあ Transformer は何をする？

embeddingを受け取って、変換するの

EmbeddingとTransformerの関係

1. Embedding層（意味を数値化する）

テキスト:   ["cat", "sat", "mat"]

  ↓ トークン化

トークン:   [42, 513, 78]   （数字ID）

  ↓ Embedding行列を参照

埋め込みベクトル:
 "cat" → [0.12, -0.98, 1.54, …]
 "sat" → [0.87,  0.33, -0.45, …]
 "mat" → [-0.22, 1.15, 0.09, …]

ここで初めて 「意味を数値に」写している。
ただし、この段階ではまだ「文脈」は考慮されてない。

文脈を読み取って変換するのが Transformer

2. Transformer本体（文脈を反映して更新する）

入力: 埋め込みベクトル列
        ↓
[ Attention ]
  - Query・Key・Value を計算
  - 単語同士が「どれだけ関係あるか」を重み付け
        ↓
[ Feed-forward ]
  - ベクトルをさらに非線形変換
        ↓
[ Residual + Normalization ]
  - 安定化させつつ情報保持

ここで 「文脈に応じたベクトル」 に進化する。
例： “cat” が “sat” と一緒に出るとき、
「座った猫」というニュアンスがベクトルに反映される。

最後は Unembedding もするよ

3. 出口（Unembedding + Softmax）

文脈付きベクトル → Unembedding行列
                  → 語彙全体のスコア
                  → Softmaxで確率分布
                  → 次の単語を予測

「文脈を考慮した数値」から「次の単語の確率」へ戻すステップ。

まとめイメージ

Embedding：意味を「数値空間」に置く（入り口）
Transformer：その数値を「文脈で加工」する（本体）
Unembedding：数値から再び「単語候補」に戻す（出口）

Transformers
are the core technology

Transformer のなかの Attention とはこれ

CLICK

【AIの仕組み】Attentionは言葉に光を当てるスポットライト

author
月うさぎ

2025-09-28

編集後記：
この記事の内容がベストではないかもしれません。