LRAG用語集生成ツール
キーワード抽出
用語集生成
プロンプト拡張
概要
現在、GPT-4のような大規模言語モデル(LLM)は機械翻訳(MT)の分野で広く活用されており、Google翻訳やDeepL等のニューラル機械翻訳(NMT)システムを凌ぐほどになっています。しかし、LLM翻訳は学習データの不足により、固有名詞や専門用語の誤訳が多いという問題を抱えています。この問題を解決するアプローチの一つとして、必要なデータを外部から取得し、推論段階で活用させる「検索拡張生成(Retrieval Augmented Generation、RAG)」という方法があります。
当研究所では、原文に特化した用語集をLLMシステムに統合する革新的な手法を開発し、「Lexical Retrieval Augmented Generation(訳語取得のための検索拡張生成、LRAG)」と名付けました。拡張モジュールとして実装されたLRAG用語集生成ツールは、固有名詞や専門用語の大規模多言語データベース(LRAGデータベース)からデータを取得し、用語集を自動生成します。また、ユーザー辞書を追加することで用語集をカスタマイズすることも可能です。
特徴
LRAG用語集生成ツールは、非常に効率良く用語集を生成するという特徴を持っています。
- 専門用語や固有名詞等のキーワードを自動抽出します。
- ユーザーが指定した分野に対応するほか、自動で分野を推定することも可能です。
- 数千万項目に及ぶLRAGデータベースにリアルタイムでアクセスできます。
- 複数の訳語候補が文脈に応じて優先順位付けされます。
- オプションでユーザー辞書を追加することが可能です。
- LRAG用語集を含む拡張プロンプトが自動生成されます。
使用分野
LRAG 用語集生成ツールは、幅広いユーザー層に役立ちます。
- 翻訳者等の個人ユーザーは、カスタマイズ可能な用語集を活用することで、専門的で個別対応が必要な翻訳作業をより正確で確実に完成させることができます。
- 翻訳会社は、LRAG用語集生成ツールを用いて大規模多言語データベースとユーザー辞書を組み合わせることで、ポストエディットに向けて、より正確で一貫性のある翻訳ドラフトを生成できます。機械翻訳システムとのシームレスな統合により、高品質な翻訳を完成させるために必要な時間と労力を、大幅に削減することが可能です。
- LLM開発者は、LRAG用語集生成ツールを活用して、特定の分野の用語集やユーザー辞書を組み込むことで、再訓練することなくモデルを微調整できます。大規模なLRAGデータベースを訓練データとして用いることも可能です。
LRAGデータベース
LLM機械翻訳システムに活用できる当研究所の大規模語彙データベースをご紹介します。
中国人名異表記データベース
760万項目に及ぶ中国人名とローマ字異表記
日本語異表記データベース
重要な日本語語彙12.6万項目の異表記
日本人名異表記データベース
350万項目に及ぶ日本人名とローマ字異表記
日本地名多言語POIデータベース
310万項目に及ぶ日本地名の多言語データベース
アラブ人名データベース
650万項目に及ぶアラブ人名とローマ字異表記
参考文献
LRAG ホワイトペーパー
ホワイトペーパー(日本語)
DeepLEX: Lexical Resources for Deep Learning
White Paper (English)
DeepLEX: 深層学習用辞書データベース
ホワイトペーパー(日本語)