스킵그램 생성

단어나 문자를 건너뛸 수 있는 유연한 N-그램을 생성합니다.

단어 0개 | 문자 0개
변경 시 변환
0줄 | 0개 항목
읽기 전용 모드

유연한 건너뛰기

숨겨진 패턴을 찾기 위해 건너뛸 수 있는 정확한 단어 또는 문자 수를 정의합니다.

즉시 결과

처리는 브라우저에서 즉시 이루어집니다. 서버 지연이 없습니다.

단어 및 문자

단어 스킵그램 및 문자 스킵그램 모두 지원

이 예제들 시도

건너뛰기 단어 바이그램

문장에서 단어 쌍 컨텍스트를 캡처하기 위해 1-스킵이 있는 2-그램 생성

지금 적용

문자 바이그램

짧은 텍스트 문자열에서 1-스킵이 있는 문자 수준 2-그램을 추출합니다.

지금 적용

건너뛰기 단어 삼중그램

1-스킵으로 3단어 스킵그램을 만들어 더 긴 문맥 패턴을 찾습니다.

지금 적용

넓은 건너뛰기 바이그램

최대 2회 건너뛰기를 허용하는 2-gram 탐색으로 더 넓은 단어 관계 파악.

지금 적용

스킵그램이란?

스킵-그램은 구성 요소(단어 또는 문자)가 원본 텍스트에서 연속적일 필요가 없는 n-그램의 일반화입니다. 대신 간격(스킵)으로 분리될 수 있습니다.

이 용어는 자연어 처리(NLP)에서 널리 사용되며, 특히 Word2Vec와 같은 모델에서 스킵그램이 인접하지 않은 단어의 문맥을 포착하는 데 도움을 줍니다.

k-스킵-n-그램 설명

이 도구에서 사용되는 공식 정의는 k-skip-n-grams입니다:

  • n: 시퀀스의 항목(단어/문자) 수입니다.
  • k: 시퀀스에서 두 항목 사이에 건너뛸 수 있는 최대 항목 수입니다.

예를 들어, "The quick brown fox" 문장에서:

  • 일반 바이그램(n=2, k=0): "The quick", "quick brown", "brown fox"
  • 1-스킵-2-그램 (n=2, k=1): 위 항목에 추가로 "The brown"('quick' 생략), "quick fox"('brown' 생략)를 포함합니다.

이 도구 사용 방법

  1. 텍스트 입력: 콘텐츠를 붙여넣거나 파일을 끌어다 놓으세요.
  2. N(크기) 설정: 그램의 길이를 선택합니다(예: 2는 쌍).
  3. K(건너뛰기) 설정: 허용되는 최대 건너뛰기 거리를 선택합니다.
  4. 결과 보기: 도구가 기준을 충족하는 모든 유효한 하위 시퀀스를 생성합니다.