ເຂົ້າໃຈກົນໄກ Attention ໃນ Transformers: ຫົວໃຈຫຼັກທາງຄະນິດສາດຂອງ LLMs ຍຸກໃໝ່

ໂພສເມື່ອ 2026-01-13 # Deep Learning # Natural Language Processing # Large Language Models # Developer Tips —

ເຂົ້າໃຈກົນໄກ Attention ໃນ Transformers: ຫົວໃຈຫຼັກທາງຄະນິດສາດຂອງ LLMs ຍຸກໃໝ່

ເຄີຍສົງໄສບໍ່ວ່າ ປັນຍາປະດິດຢ່າງ ChatGPT ຫຼື Claude ສາມາດເຂົ້າໃຈບໍລິບົດຂອງປະໂຫຍກທີ່ຊັບຊ້ອນໄດ້ແນວໃດ? ລອງພິຈາລະນາປະໂຫຍກພາສາລາວນີ້: “ລາວກິນເຂົ້າທີ່ຮ້ານເຂົ້າປຽກກ່ອນຈະເຂົ້າບ້ານ.” ຄຳວ່າ “ເຂົ້າ” ປະກົດຂຶ້ນ 3 ຄັ້ງ ແຕ່ມີຄວາມໝາຍຕ່າງກັນທັງໝົດ (ເຂົ້າທີ່ເປັນອາຫານ, ເຂົ້າປຽກທີ່ເປັນຊື່ເມນູຊະນິດໜຶ່ງ, ແລະ ເຂົ້າທີ່ແປວ່າການເຄື່ອນຍ້າຍເຂົ້າໄປ). ເມື່ອກ່ອນ, ໂມເດລພາສາແບບເກົ່າ (RNNs ຫຼື LSTMs) ມັກຈະສັບສົນກັບປະໂຫຍກຍາວໆ ແຕ່ໃນປັດຈຸບັນ Large Language Models (LLMs) ສາມາດຈຳແນກຄວາມໝາຍໄດ້ຢ່າງຊັດເຈນ.

ຄວາມລັບທີ່ຢູ່ເບື້ອງຫຼັງຄວາມສະຫຼາດນີ້ບໍ່ແມ່ນເວດມົນ, ແຕ່ມັນຄືຄະນິດສາດທີ່ເອີ້ນວ່າ Attention Mechanism (ກົນໄກການໃຫ້ຄວາມສົນໃຈ) ເຊິ່ງເປັນຫົວໃຈຫຼັກຂອງສະຖາປັດຕະຍະກຳ Transformer. ສຳລັບນັກພັດທະນາ ແລະ ນັກວິໄຈ AI ໃນລາວ, ການເຂົ້າໃຈກົນໄກນີ້ຢ່າງເລິກເຊິ່ງແມ່ນກຸນແຈສຳຄັນໃນການພັດທະນາ ແລະ ປັບແຕ່ງ (Fine-tune) ໂມເດລໃຫ້ຮອງຮັບພາສາລາວໄດ້ຢ່າງມີປະສິດທິພາບ.

ບັນຫາຂອງຍຸກກ່ອນ Transformer (The Bottleneck Problem)

ກ່ອນໜ້າປີ 2017 (ກ່ອນທີ່ເອກະສານ “Attention Is All You Need” ຈະຖືກຕີພິມ), Recurrent Neural Networks (RNNs) ແມ່ນມາດຕະຖານສຳລັບ NLP. ບັນຫາຂອງ RNN ແມ່ນການປະມວນຜົນແບບມີລຳດັບ (Sequential). ຖ້າທ່ານປ້ອນບົດຄວາມຂ່າວຈາກໜັງສືພິມວຽງຈັນທາມສ໌ (Vientiane Times) ທີ່ຍາວຫຼາຍ, ເມື່ອໂມເດລອ່ານຮອດທ້າຍບົດ, ມັນມັກຈະ “ລືມ” ຂໍ້ມູນທີ່ຢູ່ຕົ້ນບົດ. ນີ້ເອີ້ນວ່າບັນຫາ Vanishing Gradient ເຊິ່ງເຮັດໃຫ້ເກີດຂໍ້ຈຳກັດ (Bottleneck) ໃນການສົ່ງຕໍ່ຂໍ້ມູນບໍລິບົດ.

ແນວຄວາມຄິດຫຼັກ: Self-Attention (ຄະນິດສາດຂອງບໍລິບົດ)

Self-Attention ແກ້ໄຂບັນຫານີ້ໂດຍການໃຫ້ແຕ່ລະຄຳ (Token) ໃນປະໂຫຍກ ສາມາດ “ເບິ່ງ” ແລະ “ຄຳນວນຄວາມສຳພັນ” ກັບທຸກໆຄຳອື່ນໆໃນປະໂຫຍກດຽວກັນພ້ອມໆກັນ ໄດ້ໂດຍກົງ.

ເພື່ອໃຫ້ເຂົ້າໃຈງ່າຍ, ລອງຄິດເຖິງລະບົບການຊອກຫາປຶ້ມໃນຫໍສະໝຸດແຫ່ງຊາດລາວ. ໂມເດລຈະແບ່ງຂໍ້ມູນອອກເປັນ 3 ມາຕຣິກ (Matrices):

Query (Q): ສິ່ງທີ່ເຮົາກຳລັງຊອກຫາ (ປຽບເໝືອນຄຳຄົ້ນຫາທີ່ເຮົາພິມລົງໃນລະບົບ).
Key (K): ປ້າຍກຳກັບ ຫຼື ດັດຊະນີຂອງຂໍ້ມູນ (ປຽບເໝືອນຊື່ປຶ້ມ ແລະ ໝວດໝູ່ທີ່ຕິດຢູ່ສັນປຶ້ມ).
Value (V): ເນື້ອຫາຕົວຈິງ (ປຽບເໝືອນເນື້ອໃນພາຍໃນຂອງປຶ້ມນັ້ນໆ).

ສູດຄະນິດສາດຂອງ Scaled Dot-Product Attention:

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

ການເຮັດວຽກເທື່ອລະຂັ້ນຕອນ:

ການຄູນມາຕຣິກ ( $QK^T$ ): ເອົາ Query ໄປຄູນແບບ Dot Product ກັບ Key (ທີ່ຖືກ Transpose). ຜົນທີ່ໄດ້ຄື “ຄະແນນຄວາມກ່ຽວຂ້ອງ” ລະຫວ່າງຄຳໜຶ່ງກັບຄຳອື່ນໆທັງໝົດ.
ການປັບອັດຕາສ່ວນ ( $\sqrt{d_k}$ ): ເມື່ອຂະໜາດຂອງມາຕຣິກ ( $d_k$ ) ໃຫຍ່ຂຶ້ນ, ຄ່າ Dot Product ກໍຈະໃຫຍ່ຕາມ ເຮັດໃຫ້ເກີດບັນຫາກົງກັນຂ້າມເວລາໄລ່ Gradient. ການຫານດ້ວຍຮາກຂັ້ນສອງຂອງ $d_k$ ຈະຊ່ວຍຮັກສາສະຖຽນລະພາບຂອງຄະນິດສາດ.
Softmax: ປ່ຽນຄະແນນທີ່ໄດ້ໃຫ້ກາຍເປັນ “ຄ່າຄວາມໜ້າຈະເປັນ” ທີ່ລວມກັນແລ້ວເທົ່າກັບ 1. ຄ່າທີ່ໃກ້ 1 ໝາຍເຖິງໂມເດລຕ້ອງ “ສົນໃຈ” ຄຳນັ້ນຫຼາຍທີ່ສຸດ.
ການຄູນກັບເນື້ອຫາ ( $V$ ): ສຸດທ້າຍ, ເອົາຄະແນນຄວາມສົນໃຈທີ່ໄດ້ໄປຄູນກັບ Value Matrix ເພື່ອດຶງເອົາພຽງແຕ່ບໍລິບົດທີ່ສຳຄັນອອກມາ.

ຕົວຢ່າງການຂຽນໂຄດດ້ວຍ PyTorch

ສຳລັບນັກພັດທະນາ ເຮົາມາເບິ່ງວິທີການສ້າງ Scaled Dot-Product Attention ດ້ວຍ PyTorch ທີ່ສາມາດນຳໄປໃຊ້ໃນໂປຣເຈັກຈິງໄດ້:

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

def scaled_dot_product_attention(query, key, value, mask=None):
    """
    ຄຳນວນ Attention weights.
    query, key, value ມີຂະໜາດ: (batch_size, num_heads, seq_length, d_k)
    """
    d_k = query.size(-1)
    
    # 1. ຄຳນວນ Q * K^T (Scores)
    # ການໃຊ້ .transpose(-2, -1) ແມ່ນເພື່ອສະຫຼັບ 2 ມິຕິສຸດທ້າຍຂອງມາຕຣິກ
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)
    
    # 2. ໃຊ້ Mask (ຖ້າມີ) ເພື່ອບັງບໍ່ໃຫ້ໂມເດລເຫັນຄຳທີ່ຢູ່ອະນາຄົດໃນຕອນ Training Decoder
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)
        
    # 3. ຜ່ານຟັງຊັນ Softmax ເພື່ອໃຫ້ໄດ້ນ້ຳໜັກຄວາມສົນໃຈ (Probabilities)
    p_attn = F.softmax(scores, dim=-1)
    
    # 4. ນຳເອົານ້ຳໜັກໄປຄູນກັບ Value
    return torch.matmul(p_attn, value), p_attn

# ການທົດສອບເບື້ອງຕົ້ນ
d_k = 64
seq_len = 10  # ສົມມຸດວ່າມີ 10 Tokens (ເຊັ່ນ: 10 ຄຳສັບໃນປະໂຫຍກພາສາລາວ)
q = torch.randn(1, 8, seq_len, d_k) 
k = torch.randn(1, 8, seq_len, d_k)
v = torch.randn(1, 8, seq_len, d_k)

output, attention_weights = scaled_dot_product_attention(q, k, v)
print(f"Output shape: {output.shape}") 
# ຜົນໄດ້ຮັບຈະອອກມາເປັນ: torch.Size([1, 8, 10, 64])

Multi-Head Attention: ຫຼາກຫຼາຍມຸມມອງ, ຄວາມເຂົ້າໃຈທີ່ເລິກເຊິ່ງກວ່າ

ໂມເດລ Transformers ບໍ່ໄດ້ໃຊ້ Attention ພຽງຊຸດດຽວ ແຕ່ໃຊ້ສິ່ງທີ່ເອີ້ນວ່າ Multi-Head Attention (MHA). ເປັນຫຍັງຈຶ່ງຕ້ອງເຮັດແນວນັ້ນ?

ລອງວາດພາບເຖິງການວິເຄາະບົດກອນລາວ. ຖ້າທ່ານໃຫ້ຜູ້ຊ່ຽວຊານຄົນດຽວວິເຄາະ, ລາວອາດຈະເບິ່ງເຫັນພຽງແຕ່ໂຄງສ້າງຫຼັກໄວຍາກອນ. ແຕ່ຖ້າທ່ານມີຜູ້ຊ່ຽວຊານ 8 ຄົນ (8 Attention Heads):

Head ທີ 1: ສົນໃຈການສຳຜັດພະຍັນຊະນະ ແລະ ສະຫຼະ.
Head ທີ 2: ສົນໃຈຄວາມໝາຍແຝງ (Semantics).
Head ທີ 3: ສົນໃຈການເຊື່ອມໂຍງລະຫວ່າງປະທານ ແລະ ຄຳກຳມະທີ່ຢູ່ຫ່າງກັນ.

ໃນທາງຄະນິດສາດ, MHA ຈະແບ່ງ Dimension ຂອງ $Q, K, V$ ອອກໄປໃຫ້ແຕ່ລະ “Head” ຄຳນວນແຍກກັນ, ແລ້ວຈຶ່ງນຳຜົນໄດ້ຮັບມາຕໍ່ເຂົ້າກັນ (Concatenation) ໃນຕອນທ້າຍ. ສິ່ງນີ້ເຮັດໃຫ້ໂມເດລສາມາດຈັບລາຍລະອຽດທີ່ຊັບຊ້ອນ ແລະ ຮຽນຮູ້ Subspaces ທີ່ແຕກຕ່າງກັນໃນພາສາທີ່ບໍ່ມີການຍະຫວ່າງລະຫວ່າງຄຳຢ່າງພາສາລາວໄດ້ດີຂຶ້ນ.

ບໍລິບົດສຳລັບການພັດທະນາໃນລາວ (Local Context Integration)

ສຳລັບນັກວິທະຍາສາດຂໍ້ມູນ (Data Scientists) ໃນລາວ ການປະມວນຜົນພາສາລາວ (Lao NLP) ມີສິ່ງທ້າທາຍພິເສດແມ່ນການຕັດຄຳ (Tokenization) ເນື່ອງຈາກພາສາເຮົາຂຽນຕິດກັນ. ໃນອະດີດ, ຄວາມຜິດພາດໃນການຕັດຄຳຈະເຮັດໃຫ້ໂມເດລຄຳນວນພາດໄປໝົດ. ແຕ່ດ້ວຍພະລັງຂອງ Attention Mechanisms ໃນສະຖາປັດຕະຍະກຳເຊັ່ນ RoBERTa ຫຼື LLMs ຍຸກໃໝ່ແບບ Llama-3, ໂມເດລເຮັດວຽກໃນລະດັບ Sub-word (ເຊັ່ນ Byte-Pair Encoding). ກົນໄກ Attention ຊ່ວຍໃຫ້ໂມເດລສາມາດ “ຮຽນຮູ້” ປະກອບຄວາມໝາຍຈາກຊິ້ນສ່ວນຂອງສຽງ ຫຼື ພະຍາງເຂົ້າກັນເປັນຄຳ ແລະ ເປັນປະໂຫຍກທີ່ມີຄວາມໝາຍສົມບູນ ໂດຍບໍ່ຕ້ອງເພິ່ງພາດິກຊັນເນີຣີ ຫຼື ກົດເກນການຕັດຄຳທີ່ສົມບູນແບບ 100%.

ບົດສະຫຼຸບທີ່ສຳຄັນ (Key Takeaways)

ການປະມວນຜົນຂະໜານກັນ (Parallelization): ຕ່າງຈາກ RNN, ຄະນິດສາດຂອງ Attention ແມ່ນອີງໃສ່ Matrix Multiplication ລ້ວນໆ ເຊິ່ງເຮັດໃຫ້ສາມາດຄຳນວນບົນ GPU ຈຳນວນມະຫາສານໄດ້ພ້ອມກັນ.
Context is King: Q, K, V mechanism ຊ່ວຍໃຫ້ທຸກ Token ເບິ່ງເຫັນພາບລວມຂອງທັງປະໂຫຍກ ແກ້ໄຂບັນຫາການລືມຂໍ້ມູນໄລຍະຍາວໄດ້ຢ່າງເດັດຂາດ.
ຄວາມຊັບຊ້ອນດ້ານການຄຳນວນ: ຂໍ້ຄວນລະວັງສຳລັບລະບົບ Server ຄື Time Complexity ຂອງ Attention ແມ່ນ $O(N^2 \cdot d)$ (N = ຄວາມຍາວຂອງ Context). ນີ້ຄືເຫດຜົນທີ່ການຮອງຮັບປື້ມທີ່ຍາວຂຶ້ນ ຈຶ່ງຕ້ອງການ GPU Memory (vRAM) ທີ່ສູງຂຶ້ນແບບກ້າວກະໂດດ.

ສະຫຼຸບ

Attention Mechanisms ບໍ່ແມ່ນພຽງແຕ່ໂຄງສ້າງໜຶ່ງໃນ Machine Learning, ບາດກ້າວທາງຄະນິດສາດນີ້ຄືຈຸດປ່ຽນປະຫວັດສາດທີ່ເຮັດໃຫ້ໂລກກ້າວເຂົ້າສູ່ຍຸກຂອງ Generative AI. ໂດຍການປ່ຽນແປງວິທີການຈັດການກັບ “ບໍລິບົດ” ໃຫ້ກາຍເປັນການຄຳນວນຄວາມກ່ຽວຂ້ອງຂອງມາຕຣິກ, ມັນໄດ້ປົດລັອກຂີດຈຳກັດຂອງໂມເດລພາສາຢ່າງສົມບູນ. ສຳລັບນັກພັດທະນາໃນລາວ ການທຳຄວາມເຂົ້າໃຈແກ່ນແທ້ຂອງສົມຜົນເຫຼົ່ານີ້ ຈະຊ່ວຍໃຫ້ສາມາດ Optimize ໂມເດລ, ສ້າງລະບົບ RAG (Retrieval-Augmented Generation) ທີ່ມີປະສິດທິພາບ, ແລະ ນຳພາເຕັກໂນໂລຊີ AI ໃນບ້ານເຮົາໃຫ້ກ້າວທັນມາດຕະຖານສາກົນໄດ້ຢ່າງແທ້ຈິງ.