- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
翻译译文-胡建宇翻译译文-建宇翻译译文-胡建宇翻译译文-胡建宇
CTEMP:提取和规范时间信息的汉语时间分析器
吴命利,李文捷,鲁秦,李保利
计算机领域,香港理工大学,香港九龙
摘 要
时间信息在许多的自然语言处理应用中是很有帮助的,例如信息的提取,问题的回答和概括等。在本文中,我们提出了一个从中文文本中提取和规范时间表达式的时间分析器。我们推荐使用集成的时间框架,它包含了基本的时间观念和时间表达式的分类。时间表达式的鉴别是由基于语法规则和约束规则的强大的图表分析执行的。我们在大量语料库上评估了系统,并取得了可喜的成果。1 引言
时间信息处理在许多自然语言处理应用中是很有价值的,例如信息的提取,计算机翻译,问题的回答,多文档概括等。然而,一个范围广泛的语言意味着,从语汇到语法现象,可以代表此信息。获取表面文字背后的内部时间的意义是很难的。潜在的应用和表示时间的灵活性激励着我们在这个方向的研究。
在本文中,时间信息是指时间或持续时间的知识。这一信息对在时间线上的时间推理和制定的时间都是至关重要的。时间表达式是指直接或间接传达时间信息的文字块。TIMEX2注释指南[4,6]给出了时间表达式的很好的描述。根据指南,时间表达式包括日期、时间、持续时间、设置符号表达式、事件锚,等等。若要检索包含在一些时间表达式中有用的时间信息,我们需要确定原始文本中时间表达式的长度,然后根据一些标准来表示时间信息。这两个任务分别被称为时间的提取和时间的规范化。我们已经实现了一个完整系统的CTEMP,其中包括两个模块:提取和规范化。这两个模块分别完成时间的提取和时间的规范化。
一个完整的时间框架从表面文字到内部时间信息研究分析了参与映射过程的元素。这个框架包括基本的时间对象和关系、时间的测量和中文文本中时间表达式的分类。为了应付时间表达式的灵活性,我们创建了基于图表分析和有效约束的时间分析器。大量的关于语料库的认真的实验表明,事件分析器取得了可惜的成果。我们用这个时间分析器参与了TERN 2004 中文时间表达式的提取,结果表明我们的跟踪性能是最高的。
本文的其余部分安排如下:在第二节中我们给出一个对于相关工作的简短的讨论;第三节介绍时间框架——整个时间分析器的核心;时间分析器的提取和规范化分别在第四节和第五节讨论;第六节给出实验和评价的描述;最后,结论和未来的工作在第七节提出。2 相关工作
作为潜在应用的动机,时间信息处理吸收了比以往任何时候都多的关注,比如关于时间和空间信息处理的ACL 2001研讨会,LREC 2002和TERN 2004[14]。摩尼[10]给出了关于最近趋势的很好的评价。在这一领域的研究工作可分为四个种类:设计时间信息表示的注释方案[4,6,12];开发包括时间对象和他们彼此之间关系的时间本体[2,7];识别时间或时间之间的时间关系的时间戳[5,9];识别的规范不同语言的时间表达式[1,3,8,11,13,15]。
时间注释,时间本体论和时间推理并不是本文的重点。在时间表达式的提取和规范的研究中,大多数是基于手写规则或机器学习规则。摩尼和威尔逊[11]用手工和机器学习规则解决了时间表达式。他们的重点是时间表达式,尤其是指示语,它指定了时间是依赖于扬声器和一些参考时间的。我们专注与提取和规范化的程序,并尝试覆盖更多的时间表达式。希尔德和哈贝尔[13]利用基于手写规则的有限状态传感器来提取和规范时间表示和事件表示的时间表达式。系统做出的评价是一个小型语料库。
瓦佐夫[15]基于上下文约束和正则表达式识别时间表达式,但是时间表达式的规范化并不受影响。埃斯特拉等人[3]基于语法规则提出了西班牙语的时间分析器并且评价了小型语料库的标注。Jang [8]基于一篇人类周刊报告了韩语时间标志,自动推导出字典模式。这本字典是由联系数据引起,用于提取和规范文本中的时间表达式。安等人[1]采用了TERN 2004的评价任务,探讨提取时间表达式的机器学习方法和规范化的对照规则方法。然而,他们分别专注于韩语和英语文本,没有考虑到汉语的一些特点。3 时间框架
时间分析器的目的是提取和规范时间表达式。首先我们应该认识到参与这一过程的元素。我们提出了时间框架来描述表面上的时间的概念、测量和各种时间表达式。我们的时间分析器就是基于这种综合框架。
3.1 基本对象和关系
在时间方面,基本对象只是时间和持续时间,时间只是在时间线上的一个点或间隔。给出源头和测量结果,它可以被表示成一个实数。如果在中文文本中没有额外的规范,日历就是阳历。持续时间是两个时间点之间的距离,我们可以锚定开始时间和结束时间,或者其中的一个时间和持续的长度。然而,如果持续时间只是提到长度,它就无法在时间线上锚定。在时间域,也定义了对象之间的关系,在两个时间点之间,关系就是“之前”、“同时”、“之内”“之后”。这些对象和关系是表面文字背
您可能关注的文档
- 法大国际经济法货物买卖课件大国际经济法货物买卖课件法大国际经济法货物买卖课件法大国际经济法货物买卖课件.ppt
- 法国ads旅游签证所需资料国ads旅游签证所需资料法国ads旅游签证所需资料法国ads旅游签证所需资料.doc
- 法国波尔多产区葡萄酒酒标解法国波尔多产区葡萄酒酒标解读法国波尔多产区葡萄酒酒标解读法国波尔多产区葡萄酒酒标解读.doc
- 法国波尔多红酒的等级划分、区介绍和分级制度(详细有图)法国波尔多红酒的等级划分、产区介绍和分级制度(详细有图)法国波尔多红酒的等级划分、产区介绍和分级制度(详细有图)法国波尔多红酒的等级划分、产区介绍和分级制度(详细有图).doc
- 法国个人旅游签证所需资料法个人旅游签证所需资料法国个人旅游签证所需资料法国个人旅游签证所需资料.doc
- 法国个人旅游签证准备资料法个人旅游签证准备资料法国个人旅游签证准备资料法国个人旅游签证准备资料.doc
- 法国葡萄酒产区.doc
- 法国ads签证完整版(202.07新版)法国ads签证完整版(2012.07新版)法国ads签证完整版(2012.07新版)法国ads签证完整版(2012.07新版).doc
- 法国ads签证须知(武汉领)法国ads签证须知(武汉领区)法国ads签证须知(武汉领区)法国ads签证须知(武汉领区).doc
- 发展性学生评价体系的研究与施发展性学生评价体系的研究与实施发展性学生评价体系的研究与实施发展性学生评价体系的研究与实施.doc
- Unit 2 课时2 Section A Pronunciation&2a-2e(课件)-2025-2026学年七年级英语下册(人教版2024).pptx
- 第1讲 小说阅读(原卷版)-2026年中考语文现代文阅读考点剖析与讲练(全国通用).docx
- 第6讲 外国小说阅读(原卷版)-2026年中考语文现代文阅读考点剖析与讲练(全国通用).docx
- 教学中重要的“点”(三)拓展点、空白点与兴趣点 课件--2025年青年教师业务培训.pptx
- Unit 2 课时1 Section A 1a-1e(课件)-2025-2026学年七年级英语下册(人教版2024).pptx
- 29.1 投影(第1课时 投影的概念与分类)(教学课件)-2025-2026学年九年级数学下册(人教版2024).pptx
- 时政03 第十五届全运会(激情全运会 活力大湾区)课件-2026年中考道德与法治最新时政热词积累与押题预测(全国通用).pptx
- 第1讲 小说阅读(解析版)-2026年中考语文现代文阅读考点剖析与讲练(全国通用).docx
- 2025-2026学年河南省豫西北教研联盟(平许济洛)高三1月月考(二测)语文试题(无答案).docx
- 28.2.1 解直角三角形(培优教学课件)-2025-2026学年九年级数学下册(人教版2024).pptx
原创力文档


文档评论(0)