텍스트 토큰화

텍스트를 단어, 문장, 용어와 같은 더 작은 단위(토큰)로 분할합니다.

0 줄 | 0 문자 수
0 토큰
읽기 전용 모드

스마트 NLP

텍스트 구조, 약어 및 용어를 지능적으로 이해하기 위해 Compromise.js를 사용합니다.

100% 비공개

처리는 브라우저에서 이루어집니다. 데이터가 기기를 떠나지 않습니다.

다중 형식

JSON, 목록, CSV 또는 사용자 지정 구분 기호로 내보내어 쉽게 통합하세요.

이 예제들 시도

문장 토큰화

"Dr." 및 "D.C."와 같은 약어를 스마트하게 처리합니다.

지금 적용

단어 토큰화 (JSON)

JSON 출력으로 개별 단어로 분할

지금 적용

용어 분석

"New York City"와 같은 여러 단어로 구성된 용어를 식별합니다.

지금 적용

목록으로 변환된 단락

단락별로 텍스트 분할

지금 적용

텍스트 토큰화 정보

토큰화는 자연어 처리(NLP)의 기본 단계입니다. 텍스트를 "토큰"이라는 더 작은 단위로 분해하는 과정입니다. 이러한 토큰은 단어, 문장 또는 하위 단어가 될 수 있습니다. 이 도구는 브라우저에서 직접 모든 텍스트를 즉시 토큰화하는 데 도움을 줍니다.

이 도구를 사용하는 이유는 무엇인가요?

  • 스마트 문장 분할: 약어(예: "Mr.", "U.S.A.")의 마침표를 올바르게 처리하여 문장을 잘못 분할하지 않습니다.
  • 용어 식별: 일반적인 다중 단어 용어를 식별하여 함께 유지합니다(예: "뉴욕", "신용 카드").
  • JSON 내보내기: 애플리케이션에 구조화된 데이터가 필요한 개발자에게 완벽합니다.
  • 데이터 정리: 추가 공백과 구두점을 제거하는 선택적 정리 기능입니다.

가볍고 현대적인 NLP 라이브러리인 Compromise.js로 구동됩니다.