中国人名異表記データベース

760万項目を収録

主なローマ字表記すべてを含む

頻度と性別等の情報

概要

中国語人名と異表記は数百万件と規模が巨大で、その特定は計算言語学で大きな課題となっています。

CJKIの包括的な中国語人名データベースは、中国語の基本人名(姓と名別々)160万項目とそのローマ字異表記約760万項目からなり、固有表現認識と自然言語処理アプリの品質向上に貢献します。

中国人名異表記データベース(CNV: Chinese Personal Name Variants)は、中国人の姓・名を多くの標準的なローマ字表記で収録するデータベースで、タイプ、頻度、性別等の多様な付加情報を提供します。ピンイン、ウェード式、イェール式、台湾で使う通用ピンイン等多くの中国人名の主なローマ字表記と、現在はあまり使わない表記も含む異表記を幅広く網羅したデータベースで、方言表記(広東語、客家語、福建語等)も提供します。

* タブで画面を切り替えることができます。

使用分野

CNVは、名前とそのローマ字異表記の特定・処理・標準化を含む、次のような幅広い分野のソフトウェア開発に有用です。

機械翻訳の精度を向上

単語分割と形態素解析

出入国管理システム

セキュリティ対策用アプリ

マネーロンダリング対策

犯罪者の名前と異表記を認識

検索エンジンのクエリ処理

固有表現認識

データクレンジングと正規化

金融機関における不正検出

関連データベース

CEN

中英人名データベース

中日韓と西洋人名の中英データベース

CJN

中日人名データベース

中日韓と西洋人名の中日データベース

JNV

日本人名異表記データベース

日本人名とローマ字異表記