スキップグラムとは
スキップグラムは、n-gramの一般化であり、構成要素(単語や文字)が元のテキスト内で連続している必要はありません。代わりに、ギャップ(スキップ)で区切ることができます。
この用語は自然言語処理(NLP)で広く使用されており、特に Word2Vec のようなモデルでは、スキップグラムが単語が直接隣接していない場合でもその文脈を捉えるのに役立ちます。
k-skip-n-gramsの説明
このツールで使用される正式な定義は、k-skip-n-gramsです:
- n: シーケンス内の項目数(単語/文字)。
- k: シーケンス内の任意の2つの項目間でスキップできる最大項目数。
例えば、"The quick brown fox"という文では:
- 通常のバイグラム (n=2, k=0): 「The quick」「quick brown」「brown fox」
- 1-skip-2-grams(n=2、k=1): 上記に加えて「The brown」('quick'をスキップ)、「quick fox」('brown'をスキップ)を含みます。
このツールの使い方
- テキスト入力: コンテンツを貼り付けるか、ファイルをドラッグ&ドロップします。
- N(サイズ)を設定: グラムの長さ(例:2でペア)を選択します。
- K(スキップ数)を設定: 許可される最大スキップ距離を選択します。
- 結果を表示: ツールは条件を満たすすべての有効な部分列を生成します。