¿Qué son los Skip-gramas?
Un skip-gram es una generalización de un n-grama donde los componentes (palabras o caracteres) no necesitan ser consecutivos en el texto original. En cambio, pueden estar separados por espacios (saltos).
El término se usa ampliamente en Procesamiento del Lenguaje Natural (PLN), particularmente en modelos como Word2Vec, donde los skip-grams ayudan a capturar el contexto de las palabras incluso cuando no están inmediatamente adyacentes.
Explicación de k-skip-n-grams
La definición formal utilizada en esta herramienta es k-skip-n-grams:
- n: El número de elementos (palabras/caracteres) en la secuencia.
- k: El número máximo de elementos que se pueden omitir entre dos elementos cualesquiera en la secuencia.
Por ejemplo, en la frase "El rápido zorro marrón":
- Bigramas Regulares (n=2, k=0): "The quick", "quick brown", "brown fox"
- 1-skip-2-gramas (n=2, k=1): Incluye lo anterior más "The brown" (saltando 'quick'), "quick fox" (saltando 'brown').
Cómo usar esta herramienta
- Ingresar texto: Pega tu contenido o arrastra y suelta un archivo.
- Establecer N (Tamaño): Elija la longitud del grama (por ejemplo, 2 para pares).
- Establecer K (Saltos): Elija la distancia máxima de salto permitida.
- Ver Resultados: La herramienta genera todas las subsecuencias válidas que cumplen con tus criterios.