日本語複単語表現レキシコン

日本語複単語表現レキシコン

概要

日本語複単語表現レキシコン(JMWEL: Japanese Multiword ExpressionLexicon)は、日本語を対象に形態・構文解析、機械翻訳(MT)、情報検索(IR)等のNLPをフレーズベースで実行する際に必要な形態・統語的情報を豊富に備えた本邦初のフルスケール・データベースで、収録表現数は約160,000件に及び、日本語MWEの多くをカバーします。

JMWELは、計算言語学の研究者、福岡大学名誉教授首藤公昭博士により、MTを一つの目的として1960年代末に開発が始められ本年まで開発が続けられてきた他に類例のない手作り言語資源です。本年、開発が一応終了したのを機にCJKIでライセンス販売を開始することになりました。

詳細に関しては、研究工房ことばの森をご参照ください。

JMWELの主な特徴

  1. 各MWEに対し、異表記形が網羅されている。例えば、「憧れの的」、「憬れの的」の様な使える漢字の違いや、「漁り火」、「漁火」の様な許される送り仮名の有無等が示されている

  2. 各MWEに対し、許される内部修飾句の位置をマークした構文構造を記載している。例えば、慣用句「油を売る」には構文構造の記述 [[油を]*売る]を与え、内部修飾句「喫茶店で」を挿入した不連続な慣用句「油を喫茶店で売る」などが派生し得ることを記載している。

  3. 約4700個の文末MWEが収録されている。これらは、例えば、話者の判断様相を与える「~べきだった」、話者の聞き手に対する働きかけを表す「~てくださいませんか」、アスペクト情報を与える「~たばかりだ」等々、多岐にわたる。

  4. 約1900個の文脈指示、あるいは文接続MWEが収録されている。これらは、例えば、「話変わりますが、~」、「上に述べたように、~」のように、続くパラグラフや文の間の意味的関係を表す表現群で、文連続理解の重要な情報を与える。

日本語複単語表現の異表記

ID異表記ID品詞異表記読み
NP00411001nominal憧れ--あこがれのまと
NP00411002nominal憧れ--まとあこがれのまと
NP00411003nominal憬れ--あこがれのまと
NP00411004nominal憬れ--まとあこがれのまと
NP00411005nominalあこがれ--あこがれのまと
NP00411006nominalあこがれ--まとあこがれのまと
NP03509001nominal--_おににかなぼう
NP03509002nominal--_ぼうおににかなぼう
NP03509003nominal--かな_おににかなぼう
NP03509004nominal--かな_ぼうおににかなぼう
NP03509005nominalおに--_おににかなぼう
NP03509006nominalおに--_ぼうおににかなぼう
NP03509007nominalおに--かな_おににかなぼう
NP03509008nominalおに--かな_ぼうおににかなぼう
VP37342001v-class2----付けるあしをちにつける
VP37342002v-class2----つけるあしをちにつける
VP37342003v-class2----付けるあしをちにつける
VP37342004v-class2----つけるあしをちにつける
VP37342005v-class2----付けるあしをちにつける
VP37342006v-class2----つけるあしをちにつける
VP37342007v-class2----付けるあしをちにつける
VP37342008v-class2----つけるあしをちにつける
VP37342009v-class2あし----付けるあしをちにつける
VP37342010v-class2あし----つけるあしをちにつける
VP37342011v-class2あし----付けるあしをちにつける
VP37342012v-class2あし----つけるあしをちにつける

日本語複単語表現レキシコン

見出し語
形態素分かち書きと異表記情報
構文機能(品詞性)情報
形態的構造と係り受け構造情報 (実際は不連続化情報を含む)
憧れ-の-的
NP
[*V22no]*N
クリックで拡大
鬼-に-金_棒
S/incomplete
[Nni][[N$]$]
クリックで拡大
足-を-地-に-付ける
VP_d3
[Nwo][[Nni]*V30]
クリックで拡大
合わせる-顔-が-無い
AdjP_c2
[[*V40N]ga]*nai
クリックで拡大
火-を-見る-より-明らか
AdjVP
[[[Nwo]V30]yori]K00
クリックで拡大
感ずる-所-有っ-て
AdvP_Vte
[[[*V40N](ga)]at]te
クリックで拡大
欠く-可から-ざる
AdnP_Vzaru
[V30bekara]zaru
クリックで拡大
物-は-相談-だ-が
DM/SA_Ndaga
[[Nha(ga)][Nda]]ga
クリックで拡大
て-頂ける-と-良い-の-です-が
CEP_p
[[[[[[$te]V30]to]A40]no]tesu]ga
クリックで拡大
を-目標-に
CPP
[[$wo][[Nni](si)]](te)
クリックで拡大

JMWEL関連データベース

日本語語彙データベース

NLP用単言語一般語彙データベース

日本語音韻データベース

重要な日本語語彙のIPA音声・音韻表記

日本語単語データベース

一般語彙、固有名詞、専門用語