Play IT

Токенизация текста

Интерактивное демо «Токенизация текста» — раздел Энциклопедия · Искусственный интеллект.

aiencyclopedia

Токенизация текста

Word, character и subword (BPE) — как LLM режет строку

Привет,ChatGPT!
5токенов (оценка)
16символов

LLM используют subword: редкие слова дробятся, частые остаются целыми — экономия словаря.