日本地名異表記データベース
約120万項目を収録
多様なローマ字表記
異表記を包括的に網羅
概要
日本地名に異表記が多数存在する要因には、多様なローマ字表記法や、一つの地名の中で異なる表記法を混ぜ合わせる混合型表記の存在等を挙げることができます。
日本地名異表記データベース(JPV: Japanese Place Name Variants)は極めて包括的なデータベースで、一例として、安城市(あんじょうし)は、Anjō, Anjou, Anjo, Anjyo等、約120のローマ字異表記を網羅します。地名は、足立区や厚沢部町のような街区や下位区分も対象とし、各見出し語には、平仮名とローマ字異表記等多くの付加情報を含みます。
JPVは、異表記を多く含む英文から日本語への機械翻訳システム開発に特に有用です。
日本地名異表記データベース
Japanese | Kana | Roman | Type |
---|---|---|---|
安城 | あんじょう | Anjou | V |
安城 | あんじょう | Anjo | E |
安城 | あんじょう | Anjyo | V |
安城 | あんじょう | Anjoo | V |
安城 | あんじょう | Anjoh | V |
安城 | あんじょう | Anjō | H |
安城 | あんじょう | Anjyou | V |
安城 | あんじょう | Anjô | V |
安城 | あんじょう | Anzyo | V |
安城 | あんじょう | Anzyou | V |
使用分野
JPVは次のような幅広い分野のソフトウェア開発に有用です。
英日機械翻訳
データクレンジングと正規化
固有表現抽出
単語分割と形態素解析
参考文献
知的日本語検索の諸課題
高度な情報検索技術が扱うべき言語学的重要課題