NeuGraphRAG jetzt in Early Beta

Glossar

Tokenisierung

Auch bekannt als: Tokenization, Token, BPE

Definition

In der Sprach-KI ist Tokenisierung der Vorverarbeitungsschritt, der Eingabetext in Tokens aufteilt. Moderne LLMs verwenden subword-basierte Verfahren wie Byte-Pair Encoding (BPE) oder SentencePiece, die auch unbekannte Wörter robust verarbeiten. Ein Token entspricht im Englischen grob drei bis vier Zeichen; Deutsch und nicht-lateinische Sprachen erzeugen oft mehr Tokens pro Wort. Abrechnung, Context-Window-Verbrauch und Latenz von LLM-APIs werden typischerweise in Tokens gemessen.

So nutzt Swiss Knowledge Hub diesen Begriff

Swiss Knowledge Hub zeigt in der Admin-Oberfläche Token-Verbräuche pro Chat und pro Workspace, damit Kostentransparenz und Quotenmanagement möglich sind — unabhängig davon, welches LLM oder welche BYOK-Konfiguration verwendet wird.

Verwandte Begriffe

Quellen

  1. Wikipedia: Byte pair encodinghttps://en.wikipedia.org/wiki/Byte_pair_encoding
  2. OpenAI — What are tokens and how to count themhttps://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them

Stand: