NeuGraphRAG jetzt in Early Beta

Glossar

Chunking

Auch bekannt als: Text-Chunking, Dokumenten-Segmentierung

Definition

Chunking bezeichnet in RAG-Systemen die Segmentierung eines Dokuments in kleinere Einheiten, typischerweise zwischen 200 und 1000 Tokens pro Chunk. Strategien reichen von fixer Grösse über satz- oder absatzbasierte bis hin zu semantischer Segmentierung. Gute Chunk-Grenzen respektieren die inhaltliche Struktur (Abschnitte, Überschriften), damit abgerufene Passagen für sich verständlich sind. Chunk-Grösse und -Überlappung beeinflussen Recall, Präzision und Kosten des Retrievals.

So nutzt Swiss Knowledge Hub diesen Begriff

Swiss Knowledge Hub chunked hochgeladene Dokumente automatisch entlang von Seiten- und Absatzgrenzen und speichert pro Chunk Seitenzahl und Quellreferenz. Dadurch kann jede Antwort mit einem direkten Sprung in das Ursprungs-PDF belegt werden.

Verwandte Begriffe

Quellen

  1. Pinecone — Chunking strategies for LLM applicationshttps://www.pinecone.io/learn/chunking-strategies/

Stand: