Que sont les skip-grams ?
Un skip-gramme est une généralisation d’un n-gramme où les composants (mots ou caractères) n’ont pas besoin d’être consécutifs dans le texte d’origine. Ils peuvent être séparés par des écarts (sauts).
Le terme est largement utilisé en traitement automatique du langage naturel (TALN), en particulier dans des modèles comme Word2Vec, où les skip-grams aident à capturer le contexte des mots même lorsqu'ils ne sont pas immédiatement adjacents.
Explication des k-skip-n-grams
La définition formelle utilisée dans cet outil est k-skip-n-grams :
- n : Le nombre d'éléments (mots/caractères) dans la séquence.
- k : Le nombre maximum d'éléments pouvant être ignorés entre deux éléments quelconques de la séquence.
Par exemple, dans la phrase "Le rapide renard brun" :
- Bigrammes réguliers (n=2, k=0) : « The quick », « quick brown », « brown fox »
- 1-skip-2-grams (n=2, k=1) : Inclut ce qui précède PLUS "The brown" (saut de 'quick'), "quick fox" (saut de 'brown').
Comment utiliser cet outil
- Saisir du texte : Collez votre contenu ou glissez-déposez un fichier.
- Définir N (Taille): Choisissez la longueur du gramme (par exemple, 2 pour les paires).
- Définir K (Sauts): Choisissez la distance de saut maximale autorisée.
- Voir les résultats : L'outil génère toutes les sous-séquences valides répondant à vos critères.