Générer Sauts de n-grammes

Créez des N-grammes flexibles permettant de sauter des mots ou des caractères.

0 Mots | 0 Caractères
Convertir lors du changement
0 Lignes | 0 Éléments
Mode lecture seule

Sauts flexibles

Définir exactement combien de mots ou de caractères peuvent être ignorés pour trouver des motifs cachés.

Résultats instantanés

Le traitement s'effectue instantanément dans votre navigateur. Aucun délai de serveur.

Mots et caractères

Prise en charge des skip-grammes de mots et des skip-grammes de caractères.

Essayez ces exemples

Bigrammes de mots avec saut

Générer des bigrammes avec 1 saut à partir d'une phrase pour capturer le contexte des paires de mots.

Appliquer maintenant

Bigrammes de caractères

Extraire des 2-grammes au niveau des caractères avec un saut de 1 à partir d'une courte chaîne de texte.

Appliquer maintenant

Trigrammes de mots avec saut

Créez des skip-grammes de 3 mots avec 1 saut pour trouver des motifs contextuels plus longs.

Appliquer maintenant

Sauts larges de bigrammes

Explorer les bigrammes avec jusqu'à 2 sauts pour des relations de mots plus larges.

Appliquer maintenant

Que sont les skip-grams ?

Un skip-gramme est une généralisation d’un n-gramme où les composants (mots ou caractères) n’ont pas besoin d’être consécutifs dans le texte d’origine. Ils peuvent être séparés par des écarts (sauts).

Le terme est largement utilisé en traitement automatique du langage naturel (TALN), en particulier dans des modèles comme Word2Vec, où les skip-grams aident à capturer le contexte des mots même lorsqu'ils ne sont pas immédiatement adjacents.

Explication des k-skip-n-grams

La définition formelle utilisée dans cet outil est k-skip-n-grams :

  • n : Le nombre d'éléments (mots/caractères) dans la séquence.
  • k : Le nombre maximum d'éléments pouvant être ignorés entre deux éléments quelconques de la séquence.

Par exemple, dans la phrase "Le rapide renard brun" :

  • Bigrammes réguliers (n=2, k=0) : « The quick », « quick brown », « brown fox »
  • 1-skip-2-grams (n=2, k=1) : Inclut ce qui précède PLUS "The brown" (saut de 'quick'), "quick fox" (saut de 'brown').

Comment utiliser cet outil

  1. Saisir du texte : Collez votre contenu ou glissez-déposez un fichier.
  2. Définir N (Taille): Choisissez la longueur du gramme (par exemple, 2 pour les paires).
  3. Définir K (Sauts): Choisissez la distance de saut maximale autorisée.
  4. Voir les résultats : L'outil génère toutes les sous-séquences valides répondant à vos critères.