网站大量收购独家精品文档,联系QQ:2885784924

『現代日本語書き言葉均衡コーパス』 の構築と活用.docVIP

『現代日本語書き言葉均衡コーパス』 の構築と活用.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
『現代日本語書き言葉均衡コーパス』 の構築と活用

『現代日本語書き言葉均衡コーパス』の構築と活用 山崎 誠(国立国語研究所言語資源研究系)? Compilation and Use of the Balanced Corpus of Contemporary Written Japanese Makoto Yamazaki (National Institute for Japanese Language and Linguistics) 要旨 『現代日本語書き言葉均衡コーパス』(BCCWJ)は日本で最初の書き言葉の均衡コーパスであり、日本語学のみならず、日本語教育、国語教育、自然言語処理などの関連領域、また、辞書編纂への応用を目指して設計された汎用コーパスである。新聞記事データ集や青空文庫などのこれまで利用されてきた言語データと違い、多様な日本語を収録していることで、21世紀の日本語研究の基盤となることが期待される言語資源である。本稿は、このBCCWJがどのようにして作られたか、その概要について報告するものである。コーパスの構築にいたる過程、コーパスの基本的な設計方針、各サブコーパスの内容、電子化(文字化)の方法、形態論情報の設計とその付与方法、公開の方法、活用に関する展望などについて、実際に即したデータに基づきながら解説した。 1.はじめに  2006年度に構築を始めた『現代日本語書き言葉均衡コーパス』(以下、BCCWJと略す)が完成し、公開を始めることとなった。本稿ではBCCWJの概要を紹介し、今後の活用について展望する。 2.BCCWJにいたる道のり  BCCWJは突然計画され構築が始まったわけではない。日本語研究において書き言葉のコーパスに対する要望が高まって来たのは1990年代後半である。英語におけるコーパス言語学の発展や自然言語処理におけるコーパスの積極的な利用などに触発される形で遅ればせながら日本語のコーパスの必要性が出てきたものである。ちなみに「コーパス」という文字列をタイトルに含む文献を国立国語研究所の「日本語研究?日本語教育文献データベース」と国立情報学研究所の「論文情報ナビゲータCiNii」で検索すると、表1(次頁)のようになる。1990年代から件数が急増していることが分かる。  日本において本格的なコーパスの構築が進まなかった理由として以下の三つを挙げたい。 (1)1980年代あたりから内省をもとに行う現代語の理論的研究が主流になり、データによる検証の必要性が意識されなかったこと (2)古典の研究以外では大規模なデータを構築、共有するという発想がなかったこと (3)コンピュータを扱える言語研究者が限られていたこと  1980~1990年代ごろの日本語研究における状況は、相互背反的とも言える状況であり、コーパスの必要性は一部の研究者にしか認識されていなかった。コーパスを扱うにはコンピュータの利用が必須であるが、初期の環境では自前でプログラミングができないと単純な集計すらできないため、コーパスに対するハードルが高かったという側面もある。パソコンが普及してからも、新聞記事データベースや『新潮文庫の100冊』など、コーパスとみなして使うことができる(と考えられた)資料の利用が本格的なコーパスの必要性を阻んだということも出来る。 表1「コーパス」をタイトルに含む文献数 年代 日本語研究?日本語教育文献データベース CiNii 1981-1985 1 1 1986-1990 0 8 1991-1995 4 97 1996-2000 36 421 2001-2005 123 751 2006-2010 135 658 5.BCCWJの構成  BCCWJは性質の異なる三つのサブコーパス(以下、SCと略す)から構成される。この三つは、書き言葉の実態を捉える上で、異なる観点から設計されたものである。出版(生産実態)SCは、書き言葉が生み出される出版の実態に着目したもので、出版目録等により母集団を決定するものである。図書館(流通実態)SCは、書き言葉が世の中に出回っている状態に着目したもので、生み出された書き言葉の流通という局面をとらえることが狙いになっている。母集団としては、図書館の所蔵目録を利用する。特定目的(非母集団2)SCは、前述の二つのSCでは十分な量のサンプルが集まらないもの、あるいは、書き言葉の実態を把握する上で重要なデータを個別に集めるものである。図3にBCCWJを構成する媒体ごとの語数(短単位)を示す。      図3 BCCWJの媒体ごとの語数(短単位)  図3から分かるように、BCCWJでもっとも多いのは書籍である。出版書籍、図書館書籍に加えて、ベストセラ

文档评论(0)

cjlfjycby + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档