สถานะ: 🟢 Complete | อัพเดท: 2026-06-27

Tokens เชิงลึก

Tokenization คืออะไร

กระบวนการแปลง text เป็น sequence ของ integers ที่ model เข้าใจได้

Claude ใช้ BPE tokenizer — เรียนรู้ subword units จาก training data บ่อยๆ ถูก merge เป็น single token

ตัวอย่าง: “unbelievable” → [“un”, “believ”, “able”] → [1823, 9432, 1056]

Training data มี English มากกว่า Thai มาก → tokenizer รู้จัก English words ทั้งคำ แต่ต้อง split Thai เป็น subwords หรือ bytes

200K context window = 200,000 tokens ≈ 150,000 คำอังกฤษ ≈ 40,000-50,000 คำไทย