- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要语料库语言学是当代计算学语言学中经验主义方法论取得显著成
摘要
语料库语言学是当代计算学语言学中经验主义方法论取得显著成 效从而在计算语言学领域占有一定的优势地位的新学科方向。语料库 不仅是自然语言处理领域的基础性资源,并且由此产生很多不同于理 性主义方法的理论和方法。因此语料库建设和研究就成为计算语言学 的奠基工作。实践证明一个好的语料库应该具有可重用性和可扩展 性,而语料标注的标准化对于语料库建设具有十分重要的意义。语料 标注跨越语言学和计算机科学,需要对标注的内容(即标注哪些信 息)、目的(即为什么要标注)、手段(即怎样实现标注)等问题进行 逐一的回答,而语料标注的标准化也需要在这些问题上有一个明确的
答案之后才得以进行。但是目前中文语料标注的工作主要集中在标注 内容的研究上,更多地从语言学的角度研究汉语词性标注和切分的问 题,对于语料标注的手段问题特别是编码格式的问题很少涉及,这样 也就达不到语料的标准化。
XML作为网络间数据交换的标准语言在许多垂直行业特别是电子 商务中得到了广泛运用,同时目前在语料标注领域也出现了将XML 作为标注的标记语言的趋势。 本文对汉语语料标注的问题进行了研究,主要包括:
l, 比较了国内外语料标注的理论研究和工程项目,指出了国内语 料标注研究的两大不足,即对语料标注的编码格式的关注程度不够; 对于标注更多集中在切分标注层次上,而没有一个分层体系下的标注 研究
2, 提出语料标注应该着眼于语料的相互交换,而不是语料的本地 处理
3, 基于上述的认识明确提出了标注语义和标注表示的区分,该划
分具有十分重要的意义,该划分廓清了语料标注领域中的认识误区, 将语料标注问题的研究分成两个相对独立的部分,从而可以相对独立 地发展关于标注语义和标注表示地研究。并将标注表示的问题归结为 一系列对标注表示的要求,这些要求需要有一个分层次的语料标注模 型。
4,
4, 目前国内还没有出现关于语料标注抽象数据模型研究的资料, 本文则给出了一个基于集合论和图论的形式化描述分层语料标注模型 (MCAM Multilevel Corpus Annotation Model),并且在定义该模型的 同时将该抽象模型和具体的语料标注过程进行了对应,分析了分层标 注模型的优点,并且给出了MCAM模型的XML表示,从而说明了 该抽象模型现实的可行性。
5, 最后则根据工作的实际,给出了一个MCAM模型下切分标注 的XML规范表示,并编写了程序实现语料的内部格式到XML格式 之间转化的程序
6, 本文的研究还包括对《语法信息词典》的XML改造。在分析 了语法信息词典在形式上的诸多不足之后,给出了一个XML的规范, 并根据该规范将词典的部分转换成了XML格式,转换的过程没有出 现信息的丢失。
关键字:语料库,标注,XML,分级标注模型
Abs仃actCorpus
Abs仃act
Corpus Linguistic,a successful empirical methodology,now is a prevailed new trend in Computational Linguistic field.Corpus is fundamental resource for Natural Language Processing.So some theory and method in different with rational methodology is required that means the construction and research on corpus issue is the basic of Computational Linguistic.It is evident that reusability and extensibility are essential quality for good corpus,while standardization of corpus annotation is the key element of reusability and extensibility.Corpus annotation spans linguistic field and computer field,concerning about the content of annotation(i.e.what information should be provided by the annotation),the intention of annotation(i.e.what is the reason of annotation),the method of annotation
您可能关注的文档
- 基于XML的电子数据交换的研究-计算机软件与理论专业论文.docx
- 基于XML的电子政务系统解决方案的研究与设计-计算机应用专业论文.docx
- 基于XML的电子政务协同办公中的电子公文及其交换的分析-计算机应用技术专业论文.docx
- 基于XML的动力学描述模型数据转换接口设计-机械工程专业论文.docx
- 基于XML的对象模型向实体关系模式转换方法研究计算机应用技术专业论文.docx
- 基于XML的访问控制和信任协商的研究-通信与信息系统专业论文.docx
- 基于XML的访问控制研究-计算机软件与理论专业论文.docx
- 基于XML的非结构化信息存储系统事务处理模型研究-计算机应用专业论文.docx
- 基于XML的分布式数据库集成系统的研究-计算机软件与理论专业论文.docx
- 基于XML的分布式异构地理模型定义研究-地图学与地理信息系统专业论文.docx
最近下载
- 2024-2025学年 八年级上册物理(2024年新教材)教材课后习题-练习与应用(原动手动脑学物理).docx VIP
- 建筑施工承插型盘扣式钢管脚手架安全技术标准 JGJT231-2021.pdf VIP
- 动物学全套课件.pptx VIP
- 公务礼仪培训.pptx VIP
- (2025年高考真题)2025年全国高考一卷英语真题(原卷版).docx VIP
- Audition实例教程(Audition CC 2019)全套PPT课件.pptx VIP
- 中国糖尿病足诊治指南(全文版).doc VIP
- GA602-2013 干粉灭火器装置.docx VIP
- 初中校园心理剧剧本集合3篇.docx VIP
- 冷库安全操作规程.docx VIP
原创力文档


文档评论(0)