- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
茶器-茶筌-奈良先端科学技术大学院大学
CL-LAB 日本語解析済みコーパス管理ツール「茶器」 松本裕治, 浅原正幸, 岩立将和 奈良先端科学技術大学院大学 情報科学研究科 茶器:コーパス管理?検索システム タグ付きコーパスのデータベース管理 形態素解析,文節区切り,文節係り受けを施したコーパスを格納し,各種検索機能や修正機能を提供 種々の検索 文字列検索,単語(列)検索,係り受け構造検索 タグ付きコーパスと辞書の連携 コーパスは辞書へのポインタとして管理 (コーパス/辞書の修正が他方へ同期して反映) コーパスのタグ付け誤りの修正 形態素,文節区切り,係り受け誤りの修正 コロケーション抽出機能 単語の共起出現頻度,単語N-gram,頻出単語列の抽出 茶器(ChaKi)の構成 関係データベース (MySQL) 解析済み テキスト 文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 + 検索と 誤り修正 茶器(ChaKi)の構成 関係データベース (MySQL) 解析済み テキスト 文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 + 検索と 誤り修正 1文が1行になったファイル 南瓜の出力フォーマット 特になくてもよい. ない場合は,コーパス中の単語が辞書として取り扱われる 茶器の機能 対象: 係り受け解析済みコーパス (日, 中, 英) 形態素解析のみタグ付けされたコーパスも可能. 全体が一つの文節であるかのように扱われる 検索機能 文字列 (正規表現) 検索 形態素情報(品詞,読み,活用など)を用いた単語列検索 係り受け木の検索 検索結果の表示機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示 すべてエクセル(csv形式)でファイル出力可 統計機能 単語の頻度統計,共起頻度統計,頻出系列マイニング 修正機能 検索結果の修正(形態素情報,係り受け情報) 形態素解析については,複数の文の一括修正が可能 文字列検索の例 target string 単語検索 search pattern specification 単語頻度の表示 Result of word counting at the center position 共起頻度の表示 target specification collocation counts 係り受け検索 specification of dependency structure search results 係り受け木の表示と修正インタフェース 茶器の情報 文部科学省科学研究費補助金 基盤研究B「言語研究のためのコーパスの作成と利用に関する研究」(2002-2005年度),および,文部科学省科学研究費補助金 特定研究「日本語コ-パス」(2006年度-2010年度)による支援 関連文献: Yuji Matsumoto, et al, “An Annotated Corpus Management Tool: ChaKi,” Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy, May 2006. 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生, 「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回年次大会論文集, pp.460-463, March 2006. 現メンバー 松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和技研) 公開ページ http://chasen.naist.jp/chaki/t/ * * * * * * * * * * * * CL-LAB * * * * * * * * * * * *
文档评论(0)