Was sind Skip-Gramme?
Ein Skip-Gramm ist eine Verallgemeinerung eines N-Gramms, bei dem die Komponenten (Wörter oder Zeichen) im Originaltext nicht aufeinanderfolgen müssen. Stattdessen können sie durch Lücken (Skips) getrennt sein.
Der Begriff wird häufig in der Verarbeitung natürlicher Sprache (NLP) verwendet, insbesondere in Modellen wie Word2Vec, bei denen Skip-Grams helfen, den Kontext von Wörtern zu erfassen, auch wenn diese nicht unmittelbar benachbart sind.
k-Skip-n-Gramme erklärt
Die formale Definition, die in diesem Tool verwendet wird, ist k-skip-n-grams:
- n: Die Anzahl der Elemente (Wörter/Zeichen) in der Sequenz.
- k: Die maximale Anzahl von Elementen, die zwischen zwei beliebigen Elementen in der Sequenz übersprungen werden können.
Zum Beispiel im Satz „Der schnelle braune Fuchs“:
- Reguläre Bigramme (n=2, k=0): "The quick", "quick brown", "brown fox"
- 1-Skip-2-Gramme (n=2, k=1): Enthält zusätzlich „The brown“ (übersprungenes „quick“), „quick fox“ (übersprungenes „brown“).
Wie verwende ich dieses Tool?
- Text eingeben: Fügen Sie Ihren Inhalt ein oder ziehen Sie eine Datei per Drag & Drop.
- N-Gramm-Größe festlegen (N): Wählen Sie die Länge des Gramms (z. B. 2 für Paare).
- K (Sprünge) festlegen: Wählen Sie die maximal zulässige Sprungdistanz.
- Ergebnisse anzeigen: Das Tool generiert alle gültigen Teilsequenzen, die Ihren Kriterien entsprechen.