- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
webコーパスを活用した ベル別例文
Webコーパスを活用したレベル別例文検索システムの開発と評価 川村よし子 クリスティナ?ヒメリャク?寒川 東京国際大学 ルブリャナ大学(スロヴェニア) 共同研究者:トマジュ?エリャヴェッツ ヨセフ?ステファン研究所 Webコーパスを活用したレベル別例文検索システムの開発と評価 はじめに 1.Webコーパスを活用した レベル別例文検索システムの開発 2.レベル別例文検索システムの仕組み 3.レベル別例文検索システムの評価 はじめに 言語教育において、学習者のレベルにあった例文の提示は不可欠である。 例文はできるだけ自然な日本語で書かれていることが望ましい 。 従来の辞書 『外国人のための基本語用例辞典』 『基礎日本語学習辞典』 『例解新国語辞典』 作例が多く、品詞分類への配慮も十分ではない チュウ太の日本語辞書多言語化プロジェクト 1)異なった文化圏の学習者への配慮 2)品詞分類の異なる言語への配慮 3)用法についての言及 4)接尾辞的用法への配慮 5)collocation?連語?慣用句等への言及 6)概念ごとに例文を提示 ?学習者のレベルにあった「自然な日本語の例文」を意味概念ごとに作成するのは容易ではない ?web上の電子情報を活用したレベル別例文検索システムを開発 する 1.Webコーパスを活用した レベル別例文検索システムの開発 5万の日本語のウェブページから構築した4億語のコーパス「JpWaC」 形態素解析システムChaSenでコーパスの解析 ? 1億語の学習者用コーパスを作成 各例文への情報付与 ?コーパス中の各単語に、「出題基準」)をもとにした 4級(Level 4)~1級(Level 1)のレベル付け ?級外のものはLevel 0 ?各文に単語数、レベル別単語数、比率の情報付与 1.Webコーパスを活用した レベル別例文検索システムの開発 日本語学習者用例文 の抽出 1)一文の長さが5語以上25語以下のこと 2)20%以上の記号や数字を含まないこと 3)日本語以外の表記を含まないこと 4)句点(。)で終わっていること 5)少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと ? 学習者用例文コーパス(「JpWac-L2」) 859,416文(単語総数13,395,667語) 1.Webコーパスを活用した レベル別例文検索システムの開発 レベル別コーパス作成 1)各レベルの例文には当該レベルより上の語句を含まないこと 2)各レベルの例文には当該レベルの語を10%以上含むこと ? Level 0 から Level 4 までの5段階の レベル別例文コーパス レベル別コーパスに含まれる例文数 2.レベル別例文検索システムの仕組み 入力された語句を含む例文を自動で検索する キーワード検索システム インターネット上で利用可能 (http://nl.ijs.si/jaslo/cqp/index.html) 検索方法や表示形式に関して細かく設定可能 例文コーパス全体からの例文検索 選択可能 レベル別コーパスからの例文検索 3.レベル別例文検索システムの評価 1)十分な量の例文が提供できているか 2)文として整っているか 3)意味が通じるか 4)例文として適切か 5)レベルにあっているか 1)十分な量の例文が提供できているか )十分な量の例文が提供できているか 2)文として整っているか 例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと」 ? 体言止めの文を含む ○ 「動詞、形容詞、形容動詞、或いは助動詞 で終わっていること」 ? 文のみを抽出 2)文として整っているか 単語の「切り出し」の誤り 例: 割りに / 割に / わりに 自分を必要以上に良く見せようとしないかわりに、お世辞やおべっかを使うのが苦手です。 単漢字の場合 対応:2)文として整っているか きちんとした文になっているか 例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと」 ? 体言止めの文を含む ○ 「動詞、形容詞、形容動詞、或いは助動詞 で終わっていること」 ? 文のみを抽出 対応:2)文として整っているか 例
文档评论(0)