Glossar
Tokenisierung
Auch bekannt als: Tokenization, Token, BPE
Definition
In der Sprach-KI ist Tokenisierung der Vorverarbeitungsschritt, der Eingabetext in Tokens aufteilt. Moderne LLMs verwenden subword-basierte Verfahren wie Byte-Pair Encoding (BPE) oder SentencePiece, die auch unbekannte Wörter robust verarbeiten. Ein Token entspricht im Englischen grob drei bis vier Zeichen; Deutsch und nicht-lateinische Sprachen erzeugen oft mehr Tokens pro Wort. Abrechnung, Context-Window-Verbrauch und Latenz von LLM-APIs werden typischerweise in Tokens gemessen.
So nutzt Swiss Knowledge Hub diesen Begriff
Swiss Knowledge Hub zeigt in der Admin-Oberfläche Token-Verbräuche pro Chat und pro Workspace, damit Kostentransparenz und Quotenmanagement möglich sind — unabhängig davon, welches LLM oder welche BYOK-Konfiguration verwendet wird.
Verwandte Begriffe
Quellen
- Wikipedia: Byte pair encoding — https://en.wikipedia.org/wiki/Byte_pair_encoding
- OpenAI — What are tokens and how to count them — https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
Stand: