- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实体识别中基于上下文仲裁的比较空间缩减机制.doc
实体识别中基于上下文仲裁的比较空间缩减机制
摘要:分布环境下实体识别过程中存在的最主要问题是实体识别的效率问题。由于实体的特征属性之间存在上下文异构,非字符串属性之间无法直接进行有意义的比较,因而字符串属性的相似性比较十分耗时。提出了基于上下文仲裁的比较空间缩减机制,通过解决实体特征属性之间存在的上下文异构,对实体特征属性中的非字符串属性进行直接比较以滤除绝大部分不匹配的实体对,极大地缩减了比较空间,最终达到了提高实体识别效率的目的。
关键词关键词:实体识别;比较空间;上下文仲裁
中图分类号:TP301 文献标识码:A 文章编号文章编号2013)007004502
1 概述
实体识别是判断来自不同数据源,具有不完全相同的数据描述对象是否描述了现实世界中相同的实体的过程[1]。在分布环境下,当用户需要处理来自不同数据源中的信息时,如果不能解决实体识别的问题,就会出现“识别危机”,这对于分布环境下异构信息的重用、共享和信息的高效利用是很不利的。
2 实体识别一般过程和存在问题
在两个数据源中分别有描述世界中同一实体的数据对象A和B。F是该实体的特征属性集合,根据特征属性在识别实体过程中的重要程度设置权重。实体识别的过程就是对实体的各特征属性采用相应的算法来判断其相似程度,再根据特征向量中属性之间的相似程度以及各个属性的权重,计算出实体之间的相似程度,来判断不同数据源中的记录是否是现实世界中的同一实体。
在进行实体识别的过程中,比较空间的大小为|A|*|B|。在这样大的空间中进行实体识别,有很多完全不匹配的记录对也参加了运算,造成计算资源的浪费和效率的低下。
在分布环境下,实体的特征属性中非字符串属性之间存在上下文异构[2],导致这类属性之间无法直接进行有意义的比较,因此在大多数实体识别系统和工具中,主要还是对字符串进行相似性比较,而这恰恰是实体识别算法中代价最高、最费时的部分。如何进一步缩减比较空间、提高实体识别的效率是分布环境下实体识别急需解决的重要问题。
已有的比较空间缩减方法主要有blocking[35]和sorted neiboughood[6]。这两种方法由于上下文异构的存在而主要采用的是字符串比较,本身花费的代价仍然很高。
3 基于上下文仲裁的比较空间缩减机制
本文提出的基于上下文仲裁的比较空间缩减机制,通过在模式映射的基础上引入上下文仲裁机制,解决分布数据源中实体的特征向量之间的模式异构和上下文异构后,特征向量中的非字符串属性可以直接进行高效比较。一方面由于非字符串属性间的直接比较比字符串之间的比较效率高得多,另一方面通过非字符串的比较可以滤去绝大部分不可能匹配的实体对,极大地缩减比较空间,达到提高实体识别效率的目的。
3.2 上下文仲裁机制
要解决分布异构数据源之间的上下文异构,至少需要三个阶段的操作:
第一个阶段是实体识别之前的预处理操作,要求维护一个全局唯一的上下文词汇,这个词汇包括目前较为常见的四种上下文分类,每种分类内部的上下文类型,同一上下文类型内部的各种上下文取值等。
第二个阶段是设计阶段,这个阶段需要完成的任务包括两个:第一个任务是在数据源和上下文词汇之间建立映射关系,第二个任务定义同一上下文异构类型内部不同上下文取值之间的转换关系,这些关系可以由规则来定义,也可以由专门定义的函数来实现。
第三个阶段是运行时,根据设计时定义的上下文映射,检测参与实体识别的数据源中实体特征属性之间的上下文异构,并根据异构情况调用相应的上下文转换规则或转换函数实现目标上下文和源上下文之间的双向转换。
3.3 基于上下文仲裁机制的实体识别预处理
基于以上描述的上下文仲裁机制,设计一个上下文仲裁器来完成“3.2”中第三阶段的功能,用来解决分布环境下异构实体的特征属性之间的上下文异构。具体过程如下:
(1) 提出综合查询:终端用户针对全局模式提出综合查询,该查询是一个包含实体的特征属性的查询。
(2) 查询解析与分解:上下文仲裁器根据数据源与全局模式之间的模式映射,将综合查询分解为与数据源模式对应的子查询。
(3) 上下文异构检测:对各个子查询中的特征属性,对比子查询和综合查询对应的属性上绑定的上下文类型和指派的上下文取值,判断是否存在上下文异构。
(4) 上下文转换:将各子查询推送至相应数据源执行,返回的子结果中,由于上下文异构的存在,得到的子结果不能直接进行比较。根据步骤(3)中检测到的上下文异构情况,针对不同异构类型调用不同的上下文转换函数,将处于源上下文的子结果转换为统一的目标上下文,形成仲裁子结果。此时各仲裁子结果中各实体的非字符串特征属性之间的上下文异
您可能关注的文档
最近下载
- DB23_T3335—2022_黑龙江省超低能耗公共建筑节能设计标准_黑龙江省.pdf VIP
- 重症医学科病人实施危重程度评分制度.docx VIP
- 任脉.ppt VIP
- 传统文化黄河教学课件.ppt VIP
- 工程量计算表范本.xls VIP
- 《口语交际:倾听》教案- 2023-2024学年高教版(2023)中职语文基础模块上册.docx VIP
- 《口语交际:介绍》教案- 2023-2024学年高教版(2023)中职语文基础模块上册.docx VIP
- 基于OpenCV的火花检测分析软件设计.pdf VIP
- 财务共享综合实训学生实践报告.docx VIP
- 国家临床版3.0手术操作编码(ICD-9-CM3).docx VIP
文档评论(0)