什麼是跳躍式詞組?
一個跳躍語法是n-gram的推廣形式,其中組成部分(單詞或字元)在原始文字中不必連續,而是可以透過間隔(跳躍)分隔。
此術語廣泛應用於自然語言處理(NLP),特別是在像 Word2Vec 這樣的模型中,跳躍式語法(skip-grams)有助於捕捉單詞的上下文,即使它們並非直接相鄰。
K-Skip-N-Grams 說明
此工具使用的正式定義為k-跳過-n-gram:
- 項目數量:序列中的項目(單詞/字元)數量。
- 跳過間距:序列中任意兩個項目之間可跳過的最大項目數量。
例如,在句子「The quick brown fox」中:
- 標準二元組(n=2, k=0): 「The quick」、「quick brown」、「brown fox」
- 1-跳過-2-元組(n=2, k=1): 包含上述內容,再加上「The brown」(跳過 'quick')、「quick fox」(跳過 'brown')。
如何使用此工具
- 輸入文字: 貼上您的內容或拖放檔案。
- 設定 N(大小): 選擇語法單元的長度(例如:2 表示成對)。
- 設定 K(跳過次數): 選擇允許的最大跳過距離。
- 檢視結果: 生成的 N-gram 會立即顯示在輸出框中。