テキストをトークン化

テキストを単語、文、用語などのより小さな単位(トークン)に分割します。

0 行 | 0 文字数
0 トークン
読み取り専用モード

スマートNLP

Compromise.jsを使用して、テキスト構造、略語、用語をインテリジェントに理解します。

100%プライベート

処理はブラウザ内で行われます。データがデバイスから外部に出ることはありません。

マルチフォーマット

JSON、リスト、CSV、またはカスタム区切り文字でエクスポートして簡単に統合

これらの例を試す

文トークン化

「Dr.」や「D.C.」などの略語をスマートに処理します

今すぐ適用

単語トークン化(JSON)

JSON出力で個々の単語に分割します。

今すぐ適用

用語分析

"New York City"のような複数単語の用語を識別します。

今すぐ適用

段落をリストに変換

段落でテキストを分割します。

今すぐ適用

テキストトークン化について

トークン化は自然言語処理(NLP)における基本的なステップです。テキストを「トークン」と呼ばれる小さな単位に分割します。これらのトークンは単語、文、さらにはサブワードにもなります。このツールを使えば、ブラウザ上で任意のテキストを即座にトークン化できます。

なぜこのツールを使うのか

  • スマート文分割: 略語(例:「Mr.」、「U.S.A.」)のピリオドを正しく処理し、文を誤って分割しません。
  • 用語識別: 一般的な複数単語の用語を識別し、まとめて保持します(例:「ニューヨーク」、「クレジットカード」)。
  • JSONエクスポート: アプリケーション用の構造化データを必要とする開発者に最適です。
  • データクリーニング: 余分な空白や句読点を除去するオプションのクリーニングです。

軽量でモダンなNLPライブラリ、Compromise.jsを搭載。