Web信息整合中的数据去重方法.docVIP

下载本文档

8
0
约4.39千字
约 8页
2016-11-23 发布于北京
举报
版权申诉

Web信息整合中的数据去重方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息整合中的数据去重方法.doc

Web信息整合中的数据去重方法　　摘要：针对现有数据去重方法中存在的时间效率和检测精度低的问题，结合Web信息整合的特点，提出一种逐级聚类的数据去重方法（SCDE）。首先通过关键属性分割和Canopy聚类将数据划分成小记录集，然后精确检测相似重复记录，并提出基于动态权重的模糊实体匹配策略，采用动态权重赋值，降低属性缺失对记录相似度计算带来的影响，并对名称的特殊性进行处理，提高匹配准确率。实验结果显示：该方法在时间效率和检测精度上均优于传统算法，其中准确率提高12.6%。该方法已应用于林业黄页系统中，取得了较好的应用效果。　　关键词：Web信息整合；相似重复记录；动态权重；模糊实体匹配　　中图分类号：TP311.13 　　文献标志码：A 　　0引言　　在对海量、异构、多源的Web信息进行整合过程中，存在大量相似重复记录[1-2]。由于“Garbage in， garbage out”，需要对这些记录进行清洗，即数据去重。数据去重过程中需要解决两个关键问题[3]：一是缩小搜索空间，二是相似记录的匹配。解决第一个问题的传统方法大都基于排序合并的基本思想，例如滑动窗口[4]和优先队列[5]等，但由于字符位置敏感性不能保证相似的记录排在邻近的位置，导致其不能取得很好的效果。一些研究人员针对上述问题，提出将聚类技术用于重复记录检测。例如文献[6]改进了基于密度的聚类（DensityBased Spatial Clustering of Applications with Noise， DBSCAN）算法，文献[7]将记录映射成Qgram空间中的点后采用层次聚类实现检测。聚类方法在准确率和召回率等衡量指标上均有一定提高，但在Web信息整合中，数据量十分庞大，时间效率仍是实际应用中的瓶颈问题。　　针对第二个问题，常用的相似记录匹配算法有基本字符串匹配算法、编辑距离算法、Qgram算法、SmithWaterman算法以及基于它们的一些改进算法。这些算法较为成熟，在不同领域证明了其适用性，但在Web信息整合环境下的准确率并不高。Web信息整合中的数据去重相对于一般数据去重而言有其特点，由于记录通常来自不同的数据源，而不同数据源对记录存储的目的有不同的侧重，这样致使某些记录的某些属性可能会缺失，进而导致相似记录的匹配出现较大偏差。针对相似重复记录清洗中的两个关键问题结合Web信息整合的特点，本文提出一种逐级聚类的数据去重（Stepwise Clustering Data Elimination， SCDE）算法，并在精确去重阶段，提出基于动态权重的模糊实体匹配策略。　　1逐级聚类的数据去重方法　　本文提出的逐级聚类数据去重算法，首先由专家利用领域知识人工选定关键属性，依据其对记录集进行互无交叉的分割；然后借用Canopy聚类思想，使用一种开销小的算法对记录粗聚类；最后并行地在子记录集中通过两两比较精确去重相似记录，大大缩小搜索空间，降低计算量，提高了时间效率。此外，在子记录集中精确检测相似记录时，提出基于动态权重的模糊实体匹配策略，采用动态权重赋值的方法，降低了属性空值对相似记录匹配造成的影响，并对名称的特殊性进行处理，提高匹配准确率。　　1.1关键属性分割　　由于Web信息资源丰富，一条记录往往由若干属性值组成，属性描述了实体记录的特征，但在众多属性描述记录特征时的重要性是不同的，至少有一个关键属性对相似记录匹配起决定性作用（当该属性值相同时，实体记录才有可能相同）。关键属性划分采用了一种分组的思想[6]，由用户结合特定应用领域的知识[8]指定关键属性进行数据分割。具体选择过程中应兼顾如下三个方面：　　1）关键属性值应为离散型、可枚举的；　　2）关键属性值的枚举数量应尽量大，这样聚类形成的子记录集越小，有利于后续重复记录检测；　　3）关键属性值的平均字符数量应尽量小，这样聚类的计算量越小。　　1.3精确去重阶段　　在每个Canopy中通过两两比较记录间的相似度来精确去重记录集。由于记录来自不同Web信息源，信息侧重不同，属性可能不完整，传统的相似度匹配方法准确率较低。为了减小属性缺失对实体匹配带来的影响，本阶段提出一种基于动态权重的模糊实体匹配策略，在第2章将作详细阐述。对于检测出的相似记录，只能保存相似记录中的一条并删除其他记录。提供三种方法来处理检测出的相似重复记录：1）择其一保留，清除其他重复记录；2）合并，即把每条重复记录看作完整记录的一部分，将其合并作为一条包含更完整信息的新记录；3）由专家根据匹配结果判断取舍。可依据具体情况的要求选择不同策略。　　2基于动态权重的模糊实体匹配策略　　针对Web信息整合的特点，提出一种基于动态权重的模糊实体匹配策略，针对事物名称缩写、简称