銀河鉄道

【AIの仕組み】Attentionは言葉に光を当てるスポットライト

サムネイル
[What's AI?]Attentionas a spotlight

Attentionは
スポットライト

Attention?

「言葉の重み」を数値にするの

Attention = 数学的スポットライト

人間は、言葉をどう処理しているか?

  • 人間が文章を読むとき、主語に注目したり、動詞とのつながりを意識したりする
  • 全部の単語を同じように見ているのではない

Attentionは、人間がやってる処理を数式で再現しようとしたの

Attention Mechanism|注意機構
  • 「重要な単語に注意を向ける」こと
  • それを数式で表現する

注意(Attention)を向ける、
つまりスポットライトを当てる

スポットライトの強さを、weight と呼ぶ

weight|重み

Weight = 注目度合い
  • 重み(Weight)は「どの単語にどれくらい注目するか」を表す
  • Weightが大きいほど、その単語のValueが強く効いてくる

具体的な計算内容

  • 入力された各トークン(単語)から Query(Q), Key(K), Value(V) を作る。
  • Query と Key の内積 → 「関連度スコア」。
  • 確率化(Softmax) → 「注目の強さ(attention weight)」。
  • その重み(weight)で Value を加重平均 → 新しい「文脈ベクトル」を得る。

数式での定義

Attention(Q, K, V) = Softmax(QKᵀ / √d) V
  • QKᵀ:関連度スコア
  • √d:スケール調整(次元数が大きすぎると値が暴れるのを防ぐ)
  • Softmax:重み化(確率に変換)
  • ×V:文脈情報を加重平均

人間が無意識にやってることを数値にするのは、とても難しい

ちなみに、
トランスフォーマーの骨格は、大きく3つ

Transformer = Geometry + Communication + Probability

Transformer = Embedding (Geometry:幾何学的配置) 
            + Attention (Communication:情報のやり取り) 
            + Softmax (Probability:確率化)

1. Embedding(埋め込みベクトル) |Geometry

  • 単語を “幾何学的な空間” に位置付ける
  • 意味が似ている単語は近く、異なる単語は遠くに配置される

「言葉を数値で地図化する」役割

2. Attention Mechanism(注意機構)|Communication

  • Query・Key・Valueを使って「誰が誰を見るか」を計算。
  • Dot Product(内積)で関連度を測り、Softmaxで重みを割り当て、Valueを加重平均する。
  • Multi-Head Attention により、文法・意味・依存関係など複数の視点を同時に獲得。

「離れた単語同士を結びつけ、直接会話させる」仕組み

3. Softmax関数|Probability

  • 次の単語の確率分布を計算。
  • 例えば「The cat sat on the ___」→ “mat” が高確率で選ばれる。
  • Sampling によって確率的に文を生成するため、多様で自然な文章が生まれる。

「未来の単語を確率的に選ぶ」役割

もうちょっと細かく見てみる

Feed-Forward層・残差接続・正規化

  • Feed-Forward Network:各トークンを変換して強化する
  • Residual残差接続:入力を出力に足す → 情報を見失わない
  • Layer Normalization:各層の値を安定化させる
  • Stacking Layers: これを何十層も重ねることで表現力が爆発的に強くなる。
トランスフォーマーの Full body
  • 骨格:Embedding + Attention + Softmax
  • 血管:feed-forward layers, residuals, and normalization

Wrap-Up(まとめフロー)

  1. Text → Tokenize(トークン化)
  2. Tokens → Embedding(埋め込みベクトル)
  3. Embedding → Multi-Head Attention + Feed-forward Layers
  4. Softmax → 次の単語の確率分布
  5. Sampling → テキスト生成
入力: 埋め込みベクトル列
        ↓
[ Attention ]
  - Query・Key・Value を計算
  - 単語同士が「どれだけ関係あるか」を重み付け
        ↓
[ Feed-forward ]
  - ベクトルをさらに非線形変換
        ↓
[ Residual + Normalization ]
  - 安定化させつつ情報保持

Referenced Insights & Citations

  • Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS. PDF
  • Jay Alammar, The Illustrated Transformer. Blog

Ultimate Advice

Think of Attention as a spotlight that mathematically decides which words to focus on and how strongly.
Attentionは「どの単語にどれくらい光を当てるか」を数式で決めるスポットライト。

Vocabulary List

| Geometry | 幾何学 |
| Communication | 通信 |
| Probability | 確率 |
| Embedding | 埋め込み |
| Attention Mechanism | 注意機構 |
| Multi-Head Attention | マルチヘッド注意 |
| Softmax | ソフトマックス関数 |
| Residual Connection | 残差接続 |
| Layer Normalization | 層正規化 |
| Contextual Embedding | 文脈的埋め込み |

Think of Attention
as a spotlight

Transformer について

著者

author
月うさぎ

編集後記:
この記事の内容がベストではないかもしれません。

記事一覧