Wat zijn skip-grams?
Een skip-gram is een generalisatie van een n-gram waarbij de componenten (woorden of tekens) niet opeenvolgend hoeven te zijn in de oorspronkelijke tekst. In plaats daarvan kunnen ze worden gescheiden door gaten (skips).
De term wordt veel gebruikt in Natural Language Processing (NLP), met name in modellen zoals Word2Vec, waarbij skip-grams helpen om de context van woorden vast te leggen, zelfs wanneer ze niet direct naast elkaar staan.
k-skip-n-grams Uitgelegd
De formele definitie die in deze tool wordt gebruikt is k-skip-n-grams:
- n: Het aantal items (woorden/tekens) in de reeks.
- k: Het maximale aantal items dat kan worden overgeslagen tussen twee willekeurige items in de reeks.
Bijvoorbeeld, in de zin "De snelle bruine vos":
- Reguliere bigrammen (n=2, k=0): "The quick", "quick brown", "brown fox"
- 1-skip-2-grams (n=2, k=1): Omvat het bovenstaande PLUS "The brown" ('quick' overgeslagen), "quick fox" ('brown' overgeslagen).
Hoe gebruik je deze tool
- Tekst invoeren: Plak uw inhoud of sleep een bestand.
- N (Grootte) instellen: Kies de lengte van het gram (bijv. 2 voor paren).
- K (Overslaan) instellen: Kies de maximale toegestane overslagafstand.
- Resultaten Bekijken: De tool genereert alle geldige deelreeksen die aan uw criteria voldoen.