Sudachi logo

Sudachi Language Resources

ここでは株式会社ワークスアプリケーションズ徳島人工知能NLP研究所で開発された自然言語処理のための言語リソースを公開しています。現在、以下の2つのデータを公開しています。

SudachiDict は日本語形態素解析器 Sudachi で利用するための語彙辞書です。

chiVe は日本語分散表現 (単語ベクトル) で、国立国語研究所の超大規模コーパス「国語研日本語ウェブコーパス (NWJC)」を Sudachi で処理したテキストで学習されています。

chiTra は日本語形態素解析器 SudachiPyで事前学習済みの大規模な言語モデルを利用するためのライブラリです。

ライセンス

Apache-2.0

ダウンロード

ドキュメント

https://worksapplications.github.io/Sudachi/

問い合わせ先

sudachi@worksap.co.jp