- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息集成中数据获取关键技术研究探讨
信息集成中数据获取关键技术研究探讨
【摘要】信息集成是以获取数据为基础来实现信息的共享,为需要信息的企业提供作出决策所需的依据,信息集成技术是现代企业重要的决策依据和获取信息的方式。信息集成中数据获取还有赖于数据的同步更新的实现,数据更新要在保证效率的前提下提高快照差分算法的查全率。在数据获取的技术方面,相似重复记录的检测方法也非常重要,笔者在本文中介绍了一种非常有效的字符串距离度量算法结合过实践应用和调查研究,对具体的算法在应用效率和作用进行了分析对比,提出了科学的对算法进行改进的建议,旨在进一步提高信息集成中数据获取关键技术,为实践提供更加可靠、有效的支持。
【关键词】信息集成;数据获取;快照差分算法;相似重复记录检测
随着计算机技术的快速发展,信息集成的发展进步越加明显,信息集成在各行各业中的应用也在不断深入,对信息集成的需要和研究都成为了这个时代的热点。数据集成中最为重要的内容就是数据的获取,数据获取涉及的领域范围之广泛、数量之大以及获取数据的环境之复杂都是整个信息集成中最为耗时、过程最为繁琐的内容。信息集成需要做好基础的数据处理工作,数据处理时涉及的关键技术就是本文所要研究的对象。本文中笔者主要研究了关于数据同步更新的快照差分算法和应用于相似重复记录检测的度量计算方法。
1快照差分算法分析
快照差分算法主要是针对数据的同步更新的一种算法,包括Windows算法、SortMerge算法等等,在最近的研究中又有新的研究成果,即基于压缩策略的改进算法。快照差分算法的内容就是根据系统所做的期限安排定期对基表形成分析的快照,再通过于前一次的基表快照进行差分对比,计算出两次基表之间的变化数据情况。快照文件中含有一系列的记录,基本表示为{R1,R2,…,Rn},在这一系列的记录中,每条记录又都包含关键字段和其他字段,差分算法就是在两个快照的基础上产生一个输出快照,包含其他字段的更新、后期快照文件中不存在的关键字段记录以及在先期的快照文件中不存在的关键字段记录,通过输出快照得出数据的更新、删除和插入情况。
快照差分算法的准确度和计算效率受到窗口的大小的影响,所以为了提高算法的精准度和提高计算效率需要选取合适的窗口大小,又因为窗口大小是与失配元组的数目密切相关的,所以对窗口大小进行调整是需要调整相应的失配元的数目来进行的,这样做的优势在于保障快照差分算法的效率,同时还能提高算法所得计算结果的准确度。
2相似重复记录检测方法分析
信息集成中数据获取关键技术还包括对记录的检测,检测两条记录是否相似的技术主要是相似重复记录检测方法。笔者在本文中结合概率后缀树来定义记录间距的计算公式和方法,这一设计的主要功能在于提高检测所得结果的准确度;在此基础上再对记录进行聚类计算,聚类计算不需要设置相关的参数,所以能够有效降低误差,使结果能够更加的与最真实的情况相吻合,还可以实现对设定的不同形态的数据构造,保证数据的精准度。但是聚类算法也有一定的局限性,在计算字符串的长度时就存在着问题,字符串距离的度量公式十分复杂,所以需要应用更为先进的聚类方法,即二次聚类方法。二次聚类方法是通过低价的度量距离的方法对复杂的数据集合体进行归类后再用精准度较高的度量距离的方法和聚类方法进行数据的分类检测。
3实例研究比较分析
3.1快照差分算法的比较分析
本文主要对快照差分算法在中间过程存储量以及I/O量耗费这两个方面的比较进行分析,在此次比较中相关数据的内容并不产生影响,起到比较意义的主要是参与比较过程的数据的数目多少。笔者在此结合油料企业的仓库数据来进行分析,文件大小为128MB或者512MB,记录大小为150B,记录数=文件大小/记录大小,前后快照的变动次数为记录数的1%,主要对I/O量和中间过程存储量进行记录,还需要记录错误率。主要采用了SM算法、SMC算法、PH算法、PHC算法,通过算法所得结果的对比发现在128MB和512MB时I/O量是存在差别的,在快照文件为128MB时,PH算法、SMC算法、PHC算法都比SM算法降低了I/O量,还存在大小的差别;在快照文件为512MB时,I/O量却有一定的上涨。在实例应用的算法中,SM算法、PH算法的复杂程度最高。在新近研究中Windows’算法在准确度和开销等方面都表现出比较强劲的优势,在效率上也较为显著,所以将在今后得到推广。
3.2相似重复检测算法的实例分析比较
本文主要结合测试数据生成系统对原始数据进行算法的分析比较,原始数据中包括的是常用的人名以及与之相对应的信息,如地址、邮编等等,系统通过人为的根据不同的需要设置不同的参数来生成所需的不同错误类型、错误比率以及不同规模的相似重复数据。在进行相似重复检测中,关系到效率和效果的标准是查
文档评论(0)