Swiss Knowledge Hub

Swiss Knowledge Hub GmbH

Glossar

Tokenisierung

Auch bekannt als: Tokenization, Token, BPE

Definition

In der Sprach-KI ist Tokenisierung der Vorverarbeitungsschritt, der Eingabetext in Tokens aufteilt. Moderne LLMs verwenden subword-basierte Verfahren wie Byte-Pair Encoding (BPE) oder SentencePiece, die auch unbekannte Wörter robust verarbeiten. Ein Token entspricht im Englischen grob drei bis vier Zeichen; Deutsch und nicht-lateinische Sprachen erzeugen oft mehr Tokens pro Wort. Abrechnung, Context-Window-Verbrauch und Latenz von LLM-APIs werden typischerweise in Tokens gemessen.

So nutzt Swiss Knowledge Hub diesen Begriff

Swiss Knowledge Hub zeigt in der Admin-Oberfläche Token-Verbräuche pro Chat und pro Workspace, damit Kostentransparenz und Quotenmanagement möglich sind — unabhängig davon, welches LLM oder welche BYOK-Konfiguration verwendet wird.

Quellen

Wikipedia: Byte pair encoding — https://en.wikipedia.org/wiki/Byte_pair_encoding
OpenAI — What are tokens and how to count them — https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them

Stand: 22.04.2026

← Zurück zum Glossar

Definition

So nutzt Swiss Knowledge Hub diesen Begriff

Verwandte Begriffe

Quellen