【AIの仕組み】Attentionは言葉に光を当てるスポットライト

作成日：2025-09-29

更新日：2025-09-30

サムネイル — ［What's AI?］Attentionas a spotlight

Attentionは
スポットライト

Attention？

「言葉の重み」を数値にするの

Attention = 数学的スポットライト

人間は、言葉をどう処理しているか？

人間が文章を読むとき、主語に注目したり、動詞とのつながりを意識したりする
全部の単語を同じように見ているのではない

Attentionは、人間がやってる処理を数式で再現しようとしたの

Attention Mechanism｜注意機構

「重要な単語に注意を向ける」こと
それを数式で表現する

注意（Attention）を向ける、
つまりスポットライトを当てる

スポットライトの強さを、weight と呼ぶ

weight｜重み

Weight = 注目度合い

重み（Weight）は「どの単語にどれくらい注目するか」を表す
Weightが大きいほど、その単語のValueが強く効いてくる

具体的な計算内容

入力された各トークン（単語）から Query（Q）, Key（K）, Value（V） を作る。
Query と Key の内積 → 「関連度スコア」。
確率化（Softmax） → 「注目の強さ（attention weight）」。
その重み（weight）で Value を加重平均 → 新しい「文脈ベクトル」を得る。

数式での定義

Attention(Q, K, V) = Softmax(QKᵀ / √d) V

QKᵀ：関連度スコア
√d：スケール調整（次元数が大きすぎると値が暴れるのを防ぐ）
Softmax：重み化（確率に変換）
×V：文脈情報を加重平均

人間が無意識にやってることを数値にするのは、とても難しい

ちなみに、
トランスフォーマーの骨格は、大きく３つ

Transformer = Geometry + Communication + Probability

Transformer = Embedding (Geometry：幾何学的配置) 
            + Attention (Communication：情報のやり取り) 
            + Softmax (Probability：確率化)

1. Embedding（埋め込みベクトル）｜Geometry

単語を “幾何学的な空間” に位置付ける
意味が似ている単語は近く、異なる単語は遠くに配置される

「言葉を数値で地図化する」役割

2. Attention Mechanism（注意機構）｜Communication

Query・Key・Valueを使って「誰が誰を見るか」を計算。
Dot Product（内積）で関連度を測り、Softmaxで重みを割り当て、Valueを加重平均する。
Multi-Head Attention により、文法・意味・依存関係など複数の視点を同時に獲得。

「離れた単語同士を結びつけ、直接会話させる」仕組み

3. Softmax関数｜Probability

次の単語の確率分布を計算。
例えば「The cat sat on the ___」→ “mat” が高確率で選ばれる。
Sampling によって確率的に文を生成するため、多様で自然な文章が生まれる。

「未来の単語を確率的に選ぶ」役割

もうちょっと細かく見てみる

Feed-Forward層・残差接続・正規化

Feed-Forward Network：各トークンを変換して強化する
Residual（残差接続）：入力を出力に足す → 情報を見失わない
Layer Normalization：各層の値を安定化させる
Stacking Layers: これを何十層も重ねることで表現力が爆発的に強くなる。

トランスフォーマーの Full body

骨格：Embedding + Attention + Softmax
血管：feed-forward layers, residuals, and normalization

Wrap-Up（まとめフロー）

Text → Tokenize（トークン化）
Tokens → Embedding（埋め込みベクトル）
Embedding → Multi-Head Attention + Feed-forward Layers
Softmax → 次の単語の確率分布
Sampling → テキスト生成

入力: 埋め込みベクトル列
        ↓
[ Attention ]
  - Query・Key・Value を計算
  - 単語同士が「どれだけ関係あるか」を重み付け
        ↓
[ Feed-forward ]
  - ベクトルをさらに非線形変換
        ↓
[ Residual + Normalization ]
  - 安定化させつつ情報保持

Referenced Insights & Citations

Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS. PDF
Jay Alammar, The Illustrated Transformer. Blog

Ultimate Advice

Think of Attention as a spotlight that mathematically decides which words to focus on and how strongly.
Attentionは「どの単語にどれくらい光を当てるか」を数式で決めるスポットライト。

Vocabulary List

| Geometry | 幾何学 |
| Communication | 通信 |
| Probability | 確率 |
| Embedding | 埋め込み |
| Attention Mechanism | 注意機構 |
| Multi-Head Attention | マルチヘッド注意 |
| Softmax | ソフトマックス関数 |
| Residual Connection | 残差接続 |
| Layer Normalization | 層正規化 |
| Contextual Embedding | 文脈的埋め込み |

Think of Attention
as a spotlight

Transformer について

CLICK

Transformers & Embedding｜the Tech Behind LLMs

author
月うさぎ

2025-09-29

編集後記：
この記事の内容がベストではないかもしれません。