日本語複単語表現レキシコン
概要
日本語複単語表現レキシコン(JMWEL: Japanese Multiword ExpressionLexicon)は、日本語を対象に形態・構文解析、機械翻訳(MT)、情報検索(IR)等のNLPをフレーズベースで実行する際に必要な形態・統語的情報を豊富に備えた本邦初のフルスケール・データベースで、収録表現数は約160,000件に及び、日本語MWEの多くをカバーします。
JMWELは、計算言語学の研究者、福岡大学名誉教授首藤公昭博士により、MTを一つの目的として1960年代末に開発が始められ本年まで開発が続けられてきた他に類例のない手作り言語資源です。本年、開発が一応終了したのを機にCJKIでライセンス販売を開始することになりました。
詳細に関しては、研究工房ことばの森をご参照ください。
JMWELの主な特徴
各MWEに対し、異表記形が網羅されている。例えば、「憧れの的」、「憬れの的」の様な使える漢字の違いや、「漁り火」、「漁火」の様な許される送り仮名の有無等が示されている
各MWEに対し、許される内部修飾句の位置をマークした構文構造を記載している。例えば、慣用句「油を売る」には構文構造の記述 [[油を]*売る]を与え、内部修飾句「喫茶店で」を挿入した不連続な慣用句「油を喫茶店で売る」などが派生し得ることを記載している。
約4700個の文末MWEが収録されている。これらは、例えば、話者の判断様相を与える「~べきだった」、話者の聞き手に対する働きかけを表す「~てくださいませんか」、アスペクト情報を与える「~たばかりだ」等々、多岐にわたる。
約1900個の文脈指示、あるいは文接続MWEが収録されている。これらは、例えば、「話変わりますが、~」、「上に述べたように、~」のように、続くパラグラフや文の間の意味的関係を表す表現群で、文連続理解の重要な情報を与える。
日本語複単語表現の異表記
ID | 異表記ID | 品詞 | 異表記 | 読み |
---|---|---|---|---|
NP00411 | 001 | nominal | 憧れ-の-的 | あこがれのまと |
NP00411 | 002 | nominal | 憧れ-の-まと | あこがれのまと |
NP00411 | 003 | nominal | 憬れ-の-的 | あこがれのまと |
NP00411 | 004 | nominal | 憬れ-の-まと | あこがれのまと |
NP00411 | 005 | nominal | あこがれ-の-的 | あこがれのまと |
NP00411 | 006 | nominal | あこがれ-の-まと | あこがれのまと |
NP03509 | 001 | nominal | 鬼-に-金_棒 | おににかなぼう |
NP03509 | 002 | nominal | 鬼-に-金_ぼう | おににかなぼう |
NP03509 | 003 | nominal | 鬼-に-かな_棒 | おににかなぼう |
NP03509 | 004 | nominal | 鬼-に-かな_ぼう | おににかなぼう |
NP03509 | 005 | nominal | おに-に-金_棒 | おににかなぼう |
NP03509 | 006 | nominal | おに-に-金_ぼう | おににかなぼう |
NP03509 | 007 | nominal | おに-に-かな_棒 | おににかなぼう |
NP03509 | 008 | nominal | おに-に-かな_ぼう | おににかなぼう |
VP37342 | 001 | v-class2 | 足-を-地-に-付ける | あしをちにつける |
VP37342 | 002 | v-class2 | 足-を-地-に-つける | あしをちにつける |
VP37342 | 003 | v-class2 | 足-を-ち-に-付ける | あしをちにつける |
VP37342 | 004 | v-class2 | 足-を-ち-に-つける | あしをちにつける |
VP37342 | 005 | v-class2 | 脚-を-地-に-付ける | あしをちにつける |
VP37342 | 006 | v-class2 | 脚-を-地-に-つける | あしをちにつける |
VP37342 | 007 | v-class2 | 脚-を-ち-に-付ける | あしをちにつける |
VP37342 | 008 | v-class2 | 脚-を-ち-に-つける | あしをちにつける |
VP37342 | 009 | v-class2 | あし-を-地-に-付ける | あしをちにつける |
VP37342 | 010 | v-class2 | あし-を-地-に-つける | あしをちにつける |
VP37342 | 011 | v-class2 | あし-を-ち-に-付ける | あしをちにつける |
VP37342 | 012 | v-class2 | あし-を-ち-に-つける | あしをちにつける |
日本語複単語表現レキシコン
見出し語 | 形態素分かち書きと異表記情報 | 構文機能(品詞性)情報 | 形態的構造と係り受け構造情報 (実際は不連続化情報を含む) |
---|---|---|---|
憧れ-の-的 | NP | [*V22no]*N | クリックで拡大 |
鬼-に-金_棒
| S/incomplete | [Nni][[N$]$]
| クリックで拡大 |
足-を-地-に-付ける
| VP_d3 | [Nwo][[Nni]*V30]
| クリックで拡大 |
合わせる-顔-が-無い
| AdjP_c2 | [[*V40N]ga]*nai
| クリックで拡大 |
火-を-見る-より-明らか
| AdjVP
| [[[Nwo]V30]yori]K00
| クリックで拡大 |
感ずる-所-有っ-て
| AdvP_Vte
| [[[*V40N](ga)]at]te
| クリックで拡大 |
欠く-可から-ざる
| AdnP_Vzaru
| [V30bekara]zaru
| クリックで拡大 |
物-は-相談-だ-が
| DM/SA_Ndaga
| [[Nha(ga)][Nda]]ga
| クリックで拡大 |
て-頂ける-と-良い-の-です-が
| CEP_p
| [[[[[[$te]V30]to]A40]no]tesu]ga
| クリックで拡大 |
を-目標-に
| CPP
| [[$wo][[Nni](si)]](te)
| クリックで拡大 |
JMWEL関連データベース
日本語語彙データベース
NLP用単言語一般語彙データベース
日本語音韻データベース
重要な日本語語彙のIPA音声・音韻表記
日本語単語データベース
一般語彙、固有名詞、専門用語