Transformers & Embedding|the Tech Behind LLMs
作成日:2025-09-28
更新日:2025-09-30

技術の中核

Transformer?

実は、Transformer が重要なの
Transformer こそ LLM の中核技術
Transformers are the core technology behind modern Large Language Models (LLMs) such as GPT.
トランスフォーマーは、GPTのような最新の大規模言語モデル(LLM)を支える中核技術。
Originally introduced in 2017
2017年に登場した。
用語
| Large Language Models (LLMs) | 大規模言語モデル(LLM) |
| natural language processing | 自然言語処理 |
| model long-range dependencies in text | テキストにおける長距離依存関係をモデル化する |
| training efficiently in parallel | 並列処理による効率的な学習 |

GPT の T は、Transformer なの
GPT is a Transformer-based model
GPT stands for Generative Pre-trained Transformer.
- Generative: It generates new text.
- 新しいテキストを生み出す
- Pre-trained: It is trained on massive text corpora beforehand.
- (膨大なデータで)事前学習された
- Transformer: The neural network architecture that makes it all work.
- トランスフォーマー
The key innovation is not in the generative or pre-training aspects,
but in the transformer mechanism itself.
イノベーションの本質は、生成や事前学習ではない。トランスフォーマー機構 にある。
用語
| Generative | 生成 |
| Pre-training | 事前学習 |
| The neural network architecture | ニューラルネットワーク |

「生成AI」なので、「生成」が重要だと思ったけど違った

中核としては、生成よりも Transformer が大きい
そして、Transformer を動かすのはEmbeddingというもの
Tokens and Embeddings

トークンと埋め込み
- Text is first broken into tokens, small chunks like words or subwords.
- テキストはまず トークン(単語やサブワードなどの小さな単位)に分割される
- Each token is mapped to a high-dimensional vector, called an embedding.
- 各トークンは 埋め込みベクトル と呼ばれる高次元の数値に変換される
Similar words → embeddings close together.

意味の近い単語 → 空間上で近い位置に埋め込まれる
- GPT-3: embeddings of 12,288 dimensions, vocabulary of ~50,000 tokens.close together.
- GPT-3では12,288次元の埋め込み、約5万語の語彙
- Over 600 million parameters just for embeddings.
- 埋め込み層だけで6億以上のパラメータ
This creates a geometric space where meaning can be represented numerically.
これ(embeddings)により「意味」が数値空間として表現される
用語
| tokens | トークン(言葉が分割されたもの) |
| chunks | チャンク(かたまり) |
| embedding | ベクトルに埋め込むこと(意味を数値にする) |

「意味」を、「数値」にする?

AIは、意味を考えてるわけじゃなく、
数値を読み取っているの
Embedding の仕事|意味空間に埋め込んで数値化する
- 言葉を「数値ベクトル」に変換したもの
- 単なる変換ではなく、意味の幾何学空間への写像
- 「意味的な距離や関係が反映されるように学習された空間」
- 例)
- king − man + woman ≈ queen のように、意味の関係性が計算できる
- (キング – 男 + 女 → クイーン)
- 自然言語 → 意味空間 に「埋め込む」ことで、単語や文章を「数値ベクトル」として扱えるようになる
- すると、内積・距離・ベクトル演算みたいな数学的な計算が可能になる
具体例:
- 距離が近い → 意味が似てる(例: cat と dog)
- ベクトルの方向性 → 関係性を表現できる
- king − man + woman ≈ queen
- 文章全体もベクトル化されるから、類似検索・クラスタリング・分類ができる。
embedding は「ただの翻訳」ではなく、意味を数値空間に写して計算可能にする技術

じゃあ Transformer は何をする?

embeddingを受け取って、変換するの
EmbeddingとTransformerの関係
1. Embedding層(意味を数値化する)
テキスト: ["cat", "sat", "mat"]
↓ トークン化
トークン: [42, 513, 78] (数字ID)
↓ Embedding行列を参照
埋め込みベクトル:
"cat" → [0.12, -0.98, 1.54, …]
"sat" → [0.87, 0.33, -0.45, …]
"mat" → [-0.22, 1.15, 0.09, …]
ここで初めて 「意味を数値に」写している。
ただし、この段階ではまだ「文脈」は考慮されてない。

文脈を読み取って変換するのが Transformer
2. Transformer本体(文脈を反映して更新する)
入力: 埋め込みベクトル列
↓
[ Attention ]
- Query・Key・Value を計算
- 単語同士が「どれだけ関係あるか」を重み付け
↓
[ Feed-forward ]
- ベクトルをさらに非線形変換
↓
[ Residual + Normalization ]
- 安定化させつつ情報保持
ここで 「文脈に応じたベクトル」 に進化する。
例: “cat” が “sat” と一緒に出るとき、
「座った猫」というニュアンスがベクトルに反映される。

最後は Unembedding もするよ
3. 出口(Unembedding + Softmax)
文脈付きベクトル → Unembedding行列
→ 語彙全体のスコア
→ Softmaxで確率分布
→ 次の単語を予測
「文脈を考慮した数値」から「次の単語の確率」へ戻すステップ。
まとめイメージ
- Embedding:意味を「数値空間」に置く(入り口)
- Transformer:その数値を「文脈で加工」する(本体)
- Unembedding:数値から再び「単語候補」に戻す(出口)
are the core technology

Transformer のなかの Attention とはこれ
2025-09-28
編集後記:
この記事の内容がベストではないかもしれません。
記事一覧
-

[What's AI?]Attentionas a spotlight 【AIの仕組み】Attentionは言葉に光を当てるスポットライト -

dotenv: yourprivate keyhole dotenv+venvで始めるGPT開発|Python×OpenAI API接続の最小構成ログ -

[ChatGPT]How to workwith it. ChatGPTとの付き合い方|AIを犬型ロボットとして理解する(2025年) -

[LangChain].invoke() LangChainの標準関数[invoke]結果をもらうための統一された実行メソッド(2025年) -

[LangChain]FAISS.load_local LangChainのFAISS.load_localとは|検索インデックスを再利用する方法 -

[What's AI?]Intent Classification Intent Classification(意図分類)|チャットボットが自然に会話するために必要なもの