深層学習用辞書データベース
CJKIでは、非常に包括的な深層学習用辞書データベース(DeepLEX: Lexical Resources for Deep Learning)の開発を進めています。DeepLEXは、固有表現認識、サイバーセキュリティ、ニューラル機械翻訳、音声技術等幅広い分野の深層学習に特に有用です。
データベースのご紹介
日中韓各語の固有表現を約数千万項目網羅したDeepLEXは、固有表現認識や音声技術等の自然言語処理アプリ開発に有用で、音声技術、機械翻訳、自然言語生成等の自然言語処理とAI関係アプリケーションを手がける世界有数のIT企業に採用されています。
下記リンクより各データベースの詳細をご確認ください。
中国人名異表記データベース
760万項目に及ぶ中国人名とローマ字異表記
日本語異表記データベース
重要な日本語語彙12.6万項目の異表記
日本人名異表記データベース
350万項目に及ぶ日本人名とローマ字異表記
日本地名多言語POIデータベース
310万項目に及ぶ日本地名の多言語データベース
アラビア語全活用形データベース
屈折形、格変化形、活用形をすべて網羅する5.3億項目
アラブ人名データベース
650万項目に及ぶアラブ人名とローマ字異表記
使用分野
DeepLEX関連データベースは、深層学習システムとプラットフォーム技術の開発に有用です。
固有表現認識
固有表現認識の従来のアプローチはルールベースですが、煩雑な中国語やアラビア語の人名異表記データに対し満足な再現率と適合率を得ることができませんでした。CJKIのハードコードされた数千万から数億項目に達する包括的な辞書データを取り込むことが固有表現認識の精度を上げる最も実用的な解決策であります。
ニューラル機械翻訳
ニューラル機械翻訳は、出現頻度の低い単語、特に固有表現がある文章に対して翻訳精度が低くなりがちです。DeepLEXをニューラル機械翻訳システムに組み込むことで、翻訳精度のスコアを大幅に向上させることができます。
サイバーセキュリティ
大規模な固有表現辞書がサイバーセキュリティにおいて重要な役割を果たすにも拘わらず、一般的な情報抽出モデルにおいてはハッカーの名前やウイルス名等分野特有の固有表現を軽視する傾向があります。サイバーセキュリティ分野において、従来のCRFベースの固有表現認識とサイバーセキュリティ特有の固有表現辞書を組み合わせて使うことで、より望ましい相乗効果を得られることができます。
正則化
正則化アルゴリズムは、訓練データだけでなく、異表記や固有表現等の未知の入力データにも適切に対応する必要があります。大規模な固有表現辞書を利用することで、それぞれの表記に対するベクトルデータの圧縮と有意義な値の計算を的確に行い、精度を大幅に向上させることができます。
事前学習済みモデル
DeepLEXを使い事前に訓練した単語関連モデルを構築し、タグ付きコーパス等の他の資源と組み合わせると、アラビア語のように形態学的に複雑な言語においても良好な結果が期待されます。
参考文献
DeepLEX: 深層学習用辞書データベース
報告書(日本語)
DeepLEX: Lexical Resources for Deep Learning
White Paper (English)
DeepLEX: 用于深度学习的词库资源
报告(中文)