【AIの仕組み】Attentionは言葉に光を当てるスポットライト
作成日:2025-09-29
更新日:2025-09-30

Attentionは
スポットライト
スポットライト

Attention?

「言葉の重み」を数値にするの
Attention = 数学的スポットライト
人間は、言葉をどう処理しているか?
- 人間が文章を読むとき、主語に注目したり、動詞とのつながりを意識したりする
- 全部の単語を同じように見ているのではない

Attentionは、人間がやってる処理を数式で再現しようとしたの
Attention Mechanism|注意機構
- 「重要な単語に注意を向ける」こと
- それを数式で表現する

注意(Attention)を向ける、
つまりスポットライトを当てる

スポットライトの強さを、weight と呼ぶ
weight|重み
Weight = 注目度合い
- 重み(Weight)は「どの単語にどれくらい注目するか」を表す
- Weightが大きいほど、その単語のValueが強く効いてくる
具体的な計算内容
- 入力された各トークン(単語)から Query(Q), Key(K), Value(V) を作る。
- Query と Key の内積 → 「関連度スコア」。
- 確率化(Softmax) → 「注目の強さ(attention weight)」。
- その重み(weight)で Value を加重平均 → 新しい「文脈ベクトル」を得る。
数式での定義
Attention(Q, K, V) = Softmax(QKᵀ / √d) V
- QKᵀ:関連度スコア
- √d:スケール調整(次元数が大きすぎると値が暴れるのを防ぐ)
- Softmax:重み化(確率に変換)
- ×V:文脈情報を加重平均

人間が無意識にやってることを数値にするのは、とても難しい

ちなみに、
トランスフォーマーの骨格は、大きく3つ
Transformer = Geometry + Communication + Probability
Transformer = Embedding (Geometry:幾何学的配置)
+ Attention (Communication:情報のやり取り)
+ Softmax (Probability:確率化)
1. Embedding(埋め込みベクトル) |Geometry
- 単語を “幾何学的な空間” に位置付ける
- 意味が似ている単語は近く、異なる単語は遠くに配置される
「言葉を数値で地図化する」役割
2. Attention Mechanism(注意機構)|Communication
- Query・Key・Valueを使って「誰が誰を見るか」を計算。
- Dot Product(内積)で関連度を測り、Softmaxで重みを割り当て、Valueを加重平均する。
- Multi-Head Attention により、文法・意味・依存関係など複数の視点を同時に獲得。
「離れた単語同士を結びつけ、直接会話させる」仕組み
3. Softmax関数|Probability
- 次の単語の確率分布を計算。
- 例えば「The cat sat on the ___」→ “mat” が高確率で選ばれる。
- Sampling によって確率的に文を生成するため、多様で自然な文章が生まれる。
「未来の単語を確率的に選ぶ」役割

もうちょっと細かく見てみる
Feed-Forward層・残差接続・正規化
- Feed-Forward Network:各トークンを変換して強化する
- Residual(残差接続):入力を出力に足す → 情報を見失わない
- Layer Normalization:各層の値を安定化させる
- Stacking Layers: これを何十層も重ねることで表現力が爆発的に強くなる。
トランスフォーマーの Full body
- 骨格:Embedding + Attention + Softmax
- 血管:feed-forward layers, residuals, and normalization
Wrap-Up(まとめフロー)
- Text → Tokenize(トークン化)
- Tokens → Embedding(埋め込みベクトル)
- Embedding → Multi-Head Attention + Feed-forward Layers
- Softmax → 次の単語の確率分布
- Sampling → テキスト生成
入力: 埋め込みベクトル列
↓
[ Attention ]
- Query・Key・Value を計算
- 単語同士が「どれだけ関係あるか」を重み付け
↓
[ Feed-forward ]
- ベクトルをさらに非線形変換
↓
[ Residual + Normalization ]
- 安定化させつつ情報保持
Referenced Insights & Citations
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS. PDF
- Jay Alammar, The Illustrated Transformer. Blog
Ultimate Advice
Think of Attention as a spotlight that mathematically decides which words to focus on and how strongly.
Attentionは「どの単語にどれくらい光を当てるか」を数式で決めるスポットライト。
Vocabulary List
| Geometry | 幾何学 |
| Communication | 通信 |
| Probability | 確率 |
| Embedding | 埋め込み |
| Attention Mechanism | 注意機構 |
| Multi-Head Attention | マルチヘッド注意 |
| Softmax | ソフトマックス関数 |
| Residual Connection | 残差接続 |
| Layer Normalization | 層正規化 |
| Contextual Embedding | 文脈的埋め込み |
Think of Attention
as a spotlight
as a spotlight

Transformer について
2025-09-29
編集後記:
この記事の内容がベストではないかもしれません。
記事一覧
-
[LangChain]thresholdしきい値 LangChain のthreshold(しきい値)とは|ベクトル検索における「信用のボーダーライン」設計 -
[What's AI ?]AI to Singularity AIの基礎知識|どうなる今後、そして現状と歴史 -
[LangChain].invoke() LangChainの標準関数[invoke]結果をもらうための統一された実行メソッド(2025年) -
[LangChain]FAISS.load_local LangChainのFAISS.load_localとは|検索インデックスを再利用する方法 -
dotenv: yourprivate keyhole dotenv+venvで始めるGPT開発|Python×OpenAI API接続の最小構成ログ -
Why Pythonfor AI? なぜAI開発はPythonでおこなうの?