Glossar
Chunking
Auch bekannt als: Text-Chunking, Dokumenten-Segmentierung
Definition
Chunking bezeichnet in RAG-Systemen die Segmentierung eines Dokuments in kleinere Einheiten, typischerweise zwischen 200 und 1000 Tokens pro Chunk. Strategien reichen von fixer Grösse über satz- oder absatzbasierte bis hin zu semantischer Segmentierung. Gute Chunk-Grenzen respektieren die inhaltliche Struktur (Abschnitte, Überschriften), damit abgerufene Passagen für sich verständlich sind. Chunk-Grösse und -Überlappung beeinflussen Recall, Präzision und Kosten des Retrievals.
So nutzt Swiss Knowledge Hub diesen Begriff
Swiss Knowledge Hub chunked hochgeladene Dokumente automatisch entlang von Seiten- und Absatzgrenzen und speichert pro Chunk Seitenzahl und Quellreferenz. Dadurch kann jede Antwort mit einem direkten Sprung in das Ursprungs-PDF belegt werden.
Verwandte Begriffe
Quellen
- Pinecone — Chunking strategies for LLM applications — https://www.pinecone.io/learn/chunking-strategies/
Stand: