中国語の複雑さは、単語分割、情報検索、音声技術、固有表現抽出、機械翻訳等の分野で、自然言語処理アプリ開発に大きな難題を突き付けます。包括的なデータベース(特に固有名詞)が不足することは、これらの難題をより難しくします。
CJKIは非常に包括的なデータベースを幅広い分野にわたって開発してきて、中国語自然言語処理アプリの精度と信頼性の向上に貢献しています。
各データベースの概要、使用分野、サンプル等は下記リンクよりご確認ください。
NLP用単言語一般語彙データベース
広東語語彙の粤語ピンイン(Jyutping)表記
書字レベルと語彙レベルの簡体字・繁体字変換に対応
専門用語と固有名詞を含むデータベースで、正確なピンイン表記が特徴
中国大陸と台湾の読みの違いを明示する表記