關於文字分詞
分詞是自然語言處理(NLP)中的基礎步驟。它涉及將文字分解為稱為「詞元」的較小單位。這些詞元可以是單詞、句子,甚至是子詞。此工具可協助您直接在瀏覽器中即時對任何文字進行分詞。
為何使用此工具?
- 智慧句子分割:正確處理縮寫中的句點(例如「Mr.」、「U.S.A.」),避免錯誤分割句子。
- 術語識別:識別常見的多詞術語並保持其完整性(例如「New York」、「credit card」)。
- JSON 匯出:為需要結構化資料的開發者提供完美解決方案。
- 資料清理:可選的清理功能,用於移除多餘空白與標點符號。
由 Compromise.js 驅動,這是一個輕量且現代的 NLP 函式庫。