基于属性权重实体解析技术探讨.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于属性权重实体解析技术探讨

基于属性权重实体解析技术探讨   摘 要:大数据时代下,数据呈爆炸式的增长态势,而这些数据结构本身有一定的差异,这为数据解析带来较大难题。根据既往研究资料中提及,考虑引入基于属性权重的实体解析技术,以此使数据解析与处理效率提升。文章对实体解析技术做简单介绍,分析属性权重基本模型,在此基础上提出属性权重下实体解析的方法。   关键词:属性权重;实体解析技术;大数据   数据海量的生成与处理为大多企业带来较多难题,特别因实体表达形式不同,可能使错误信息产生,这就使实体解析面临极多问题。尽管以往实体解析法应用下能够处理多数据源记录,且在发展中逐渐将数据预处理、比较函数选取以及特征向量选取等,但操作中仍可能将部分关键属性忽视,降低解析结果准确性。在此背景下,考虑将属性权重引入,保证实体解析的效率与准确度。因此,本文对属性权重下实体解析技术的研究,具有十分重要的意义。   1 实体解析技术相关解读   关于实体解析,覆盖较多领域,如数据库领域、机器学习领域、人工智能领域、信息检索领域与统计学领域,各领域均强调利用实体解析技术做数据源的处理。如单一结构数据集,引入实体解析技术一般做相似度计算,计算方法选择距离函数模型,如编辑距离,计算中对记录相似度分析,同时明确实体之间关系,可借助语义信息进行记录。再如结构不同数据,实体解析技术应强调匹配计算异构数据集,在明确数据集合的情况下,做匹配计算。需注意的是,因数据结构不同,所以引入实体解析方法中可能面临如何确定属性权重。从既往研究资料中可发现,一般认为所有属性均可呈现为匹配属性,其意味各数据记录均有相应的属性,所以在处理记录匹配上能够取得较高的效率。但这种处理方式应用下,直接导致部分关键属性被忽视。有研究中也指出在属性权重分配中,直接由专家指定属性,虽然满足匹配属性要求,但若专家来自不同领域,在数据集观点上有一定差异,所以最终指定的属性难以保证一致。针对这些问题,需考虑如何在实体解析技术上优化[1]。   2 属性权重模型构建   2.1 属性权重模型基本定义   属性权重模型是实体解析技术优化的基础。本次研究中从多个定义对属性权重模型进行分析,具体定义内容包括:(1)匹配属性,基于相似度的属性匹配,例如部分研究中提及记录中相似度的属性均作为匹配属性。(2)最佳分类属性,主要指按相关的原则由匹配属性集合内挑选分类属性,以信息增益方法为例,可计算各属性信息增益值,这样便可获取权重,在此基础上做最佳分类属性的确定。(3)信息增益值,通过数据挖掘方法获取信息增益,若得到的属性信息增益值较大,意味属性涵盖的信息量较多,记录中内部分特征也会被呈现出来。(4)基本相似度,与匹配属性概念不同,该定义下的相似度获取通过基本相似度函数实现,如编辑距离相似度函数,通过做单个属性计算,获取相似度。(5)最终相似度,需以基本相似度为基础,取属性权重加入,做复合运算便能获取最终结果[2]。   2.2 属性权重方法选择   属性权重方法常见的有相似度衡量、专家制定方法。以相似度衡量方法为例,强调使匹配记录保持一定的相似度,特别部分Web数据源较多情况下,实体识别中便需明确匹配记录,取相似度最小值,这种方式对于确定属性权重准确度较高,但整个操作过程中涉及较大的计算量,重复匹配,同时在匹配结束后,不会对属性赋予权重。另外一种方法即专家制定法,应用中要求有相关领域的专家对属性权重进行确定,结合自身知识经验对各属性分配相应比重,最后选择其中权重较高的属性计算,获取相似度结果。尽管这种方法运用下相对简单,但因不同领域专家在数据集认知上有一定差异,所以所得出的结果准确性难以保证。针对上述两种方法应用下存在的问题,本次研究中考虑引入其他两种方式,包括信息增益、概率统计,旨在使权重分配准确率提高。其中信息增益法亦被称之为IG法,实现的原理在于利用依托于数据挖掘,确定信息增益值后,若结果较大,意味属性影响作用明显,所以在最佳分类属性集合中应选择信息增益值较高的属性。而引入概率统计方法,强调借助数据工具将数据集合中的规律挖掘,如在训练数据集合利用下,检验与计算各属性字段,假定各属性字段均以单独匹配属性形式呈现,此时对属性准确度对比,可获取权重结果。   3 属性权重下实体解析具体方法   3.1 合理分配权重属性   考虑到属性权重分配中,因忽略元组属性加权重,将降低匹配准确度,出现?稻菪畔⒁怕┣榭觥K?以,本次研究中强调依托于概率统计知识、信息增益方法,满足赋予权重属性要求。而具体分配属性权重中,有相关的要求,包括:(1)数据集预处理。处理中应保证数据集格式的规范,然后通过概率统计或信息增益,确定可以代表所有数据记录的集合,称其为最佳分类属性集合。(2)权重计算。在信息增益方法运用下,可将信息增加量计算出来,然

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档