Токенизация текста
Интерактивное демо «Токенизация текста» — раздел Энциклопедия · Искусственный интеллект.
Токенизация текста
Word, character и subword (BPE) — как LLM режет строку
Привет,␣ChatGPT!
5токенов (оценка)
16символов
LLM используют subword: редкие слова дробятся, частые остаются целыми — экономия словаря.