基于属性权重实体解析技术探讨.docVIP

下载本文档

5
0
约3.52千字
约 8页
2018-08-29 发布于福建
举报
版权申诉

基于属性权重实体解析技术探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于属性权重实体解析技术探讨

基于属性权重实体解析技术探讨　　摘要：大数据时代下，数据呈爆炸式的增长态势，而这些数据结构本身有一定的差异，这为数据解析带来较大难题。根据既往研究资料中提及，考虑引入基于属性权重的实体解析技术，以此使数据解析与处理效率提升。文章对实体解析技术做简单介绍，分析属性权重基本模型，在此基础上提出属性权重下实体解析的方法。　　关键词：属性权重；实体解析技术；大数据　　数据海量的生成与处理为大多企业带来较多难题，特别因实体表达形式不同，可能使错误信息产生，这就使实体解析面临极多问题。尽管以往实体解析法应用下能够处理多数据源记录，且在发展中逐渐将数据预处理、比较函数选取以及特征向量选取等，但操作中仍可能将部分关键属性忽视，降低解析结果准确性。在此背景下，考虑将属性权重引入，保证实体解析的效率与准确度。因此，本文对属性权重下实体解析技术的研究，具有十分重要的意义。　　1 实体解析技术相关解读　　关于实体解析，覆盖较多领域，如数据库领域、机器学习领域、人工智能领域、信息检索领域与统计学领域，各领域均强调利用实体解析技术做数据源的处理。如单一结构数据集，引入实体解析技术一般做相似度计算，计算方法选择距离函数模型，如编辑距离，计算中对记录相似度分析，同时明确实体之间关系，可借助语义信息进行记录。再如结构不同数据，实体解析技术应强调匹配计算异构数据集，在明确数据集合的情况下，做匹配计算。需注意的是，因数据结构不同，所以引入实体解析方法中可能面临如何确定属性权重。从既往研究资料中可发现，一般认为所有属性均可呈现为匹配属性，其意味各数据记录均有相应的属性，所以在处理记录匹配上能够取得较高的效率。但这种处理方式应用下，直接导致部分关键属性被忽视。有研究中也指出在属性权重分配中，直接由专家指定属性，虽然满足匹配属性要求，但若专家来自不同领域，在数据集观点上有一定差异，所以最终指定的属性难以保证一致。针对这些问题，需考虑如何在实体解析技术上优化[1]。　　2 属性权重模型构建　　2.1 属性权重模型基本定义　　属性权重模型是实体解析技术优化的基础。本次研究中从多个定义对属性权重模型进行分析，具体定义内容包括：（1）匹配属性，基于相似度的属性匹配，例如部分研究中提及记录中相似度的属性均作为匹配属性。（2）最佳分类属性，主要指按相关的原则由匹配属性集合内挑选分类属性，以信息增益方法为例，可计算各属性信息增益值，这样便可获取权重，在此基础上做最佳分类属性的确定。（3）信息增益值，通过数据挖掘方法获取信息增益，若得到的属性信息增益值较大，意味属性涵盖的信息量较多，记录中内部分特征也会被呈现出来。（4）基本相似度，与匹配属性概念不同，该定义下的相似度获取通过基本相似度函数实现，如编辑距离相似度函数，通过做单个属性计算，获取相似度。（5）最终相似度，需以基本相似度为基础，取属性权重加入，做复合运算便能获取最终结果[2]。　　2.2 属性权重方法选择　　属性权重方法常见的有相似度衡量、专家制定方法。以相似度衡量方法为例，强调使匹配记录保持一定的相似度，特别部分Web数据源较多情况下，实体识别中便需明确匹配记录，取相似度最小值，这种方式对于确定属性权重准确度较高，但整个操作过程中涉及较大的计算量，重复匹配，同时在匹配结束后，不会对属性赋予权重。另外一种方法即专家制定法，应用中要求有相关领域的专家对属性权重进行确定，结合自身知识经验对各属性分配相应比重，最后选择其中权重较高的属性计算，获取相似度结果。尽管这种方法运用下相对简单，但因不同领域专家在数据集认知上有一定差异，所以所得出的结果准确性难以保证。针对上述两种方法应用下存在的问题，本次研究中考虑引入其他两种方式，包括信息增益、概率统计，旨在使权重分配准确率提高。其中信息增益法亦被称之为IG法，实现的原理在于利用依托于数据挖掘，确定信息增益值后，若结果较大，意味属性影响作用明显，所以在最佳分类属性集合中应选择信息增益值较高的属性。而引入概率统计方法，强调借助数据工具将数据集合中的规律挖掘，如在训练数据集合利用下，检验与计算各属性字段，假定各属性字段均以单独匹配属性形式呈现，此时对属性准确度对比，可获取权重结果。　　3 属性权重下实体解析具体方法　　3.1 合理分配权重属性　　考虑到属性权重分配中，因忽略元组属性加权重，将降低匹配准确度，出现?稻菪畔⒁怕┣榭觥Ｋ?以，本次研究中强调依托于概率统计知识、信息增益方法，满足赋予权重属性要求。而具体分配属性权重中，有相关的要求，包括：（1）数据集预处理。处理中应保证数据集格式的规范，然后通过概率统计或信息增益，确定可以代表所有数据记录的集合，称其为最佳分类属性集合。（2）权重计算。在信息增益方法运用下，可将信息增加量计算出来，然