สถานะ: 🟢 Complete | อัพเดท: 2026-06-27

Tokens เชิงลึก

Tokenization คืออะไร

กระบวนการแปลง text เป็น sequence ของ integers ที่ model เข้าใจได้

BPE (Byte Pair Encoding)

Claude ใช้ BPE tokenizer — เรียนรู้ subword units จาก training data บ่อยๆ ถูก merge เป็น single token

ตัวอย่าง: “unbelievable” → [“un”, “believ”, “able”] → [1823, 9432, 1056]

ทำไมภาษาไทยใช้ Tokens มากกว่า

Training data มี English มากกว่า Thai มาก → tokenizer รู้จัก English words ทั้งคำ แต่ต้อง split Thai เป็น subwords หรือ bytes

Special Tokens

Tokenหน้าที่
`<start_of_turn
`<end_of_turn
`<user

Context vs Tokens

200K context window = 200,000 tokens ≈ 150,000 คำอังกฤษ ≈ 40,000-50,000 คำไทย