สถานะ: 🟢 Complete | อัพเดท: 2026-06-27
Tokens เชิงลึก
Tokenization คืออะไร
กระบวนการแปลง text เป็น sequence ของ integers ที่ model เข้าใจได้
BPE (Byte Pair Encoding)
Claude ใช้ BPE tokenizer — เรียนรู้ subword units จาก training data บ่อยๆ ถูก merge เป็น single token
ตัวอย่าง: “unbelievable” → [“un”, “believ”, “able”] → [1823, 9432, 1056]
ทำไมภาษาไทยใช้ Tokens มากกว่า
Training data มี English มากกว่า Thai มาก → tokenizer รู้จัก English words ทั้งคำ แต่ต้อง split Thai เป็น subwords หรือ bytes
Special Tokens
| Token | หน้าที่ |
|---|---|
| `< | start_of_turn |
| `< | end_of_turn |
| `< | user |
Context vs Tokens
200K context window = 200,000 tokens ≈ 150,000 คำอังกฤษ ≈ 40,000-50,000 คำไทย