스킵그램이란?
스킵-그램은 구성 요소(단어 또는 문자)가 원본 텍스트에서 연속적일 필요가 없는 n-그램의 일반화입니다. 대신 간격(스킵)으로 분리될 수 있습니다.
이 용어는 자연어 처리(NLP)에서 널리 사용되며, 특히 Word2Vec와 같은 모델에서 스킵그램이 인접하지 않은 단어의 문맥을 포착하는 데 도움을 줍니다.
k-스킵-n-그램 설명
이 도구에서 사용되는 공식 정의는 k-skip-n-grams입니다:
- n: 시퀀스의 항목(단어/문자) 수입니다.
- k: 시퀀스에서 두 항목 사이에 건너뛸 수 있는 최대 항목 수입니다.
예를 들어, "The quick brown fox" 문장에서:
- 일반 바이그램(n=2, k=0): "The quick", "quick brown", "brown fox"
- 1-스킵-2-그램 (n=2, k=1): 위 항목에 추가로 "The brown"('quick' 생략), "quick fox"('brown' 생략)를 포함합니다.
이 도구 사용 방법
- 텍스트 입력: 콘텐츠를 붙여넣거나 파일을 끌어다 놓으세요.
- N(크기) 설정: 그램의 길이를 선택합니다(예: 2는 쌍).
- K(건너뛰기) 설정: 허용되는 최대 건너뛰기 거리를 선택합니다.
- 결과 보기: 도구가 기준을 충족하는 모든 유효한 하위 시퀀스를 생성합니다.