텍스트 토큰화 정보
토큰화는 자연어 처리(NLP)의 기본 단계입니다. 텍스트를 "토큰"이라는 더 작은 단위로 분해하는 과정입니다. 이러한 토큰은 단어, 문장 또는 하위 단어가 될 수 있습니다. 이 도구는 브라우저에서 직접 모든 텍스트를 즉시 토큰화하는 데 도움을 줍니다.
이 도구를 사용하는 이유는 무엇인가요?
- 스마트 문장 분할: 약어(예: "Mr.", "U.S.A.")의 마침표를 올바르게 처리하여 문장을 잘못 분할하지 않습니다.
- 용어 식별: 일반적인 다중 단어 용어를 식별하여 함께 유지합니다(예: "뉴욕", "신용 카드").
- JSON 내보내기: 애플리케이션에 구조화된 데이터가 필요한 개발자에게 완벽합니다.
- 데이터 정리: 추가 공백과 구두점을 제거하는 선택적 정리 기능입니다.
가볍고 현대적인 NLP 라이브러리인 Compromise.js로 구동됩니다.