数据集成关键技术的研究.pdfVIP

下载本文档

31
0
约 100页
2017-05-09 发布于安徽
举报

数据集成关键技术的研究.pdf

第二，引入了长度约束条件。长度约束条件可有效减少关键字段属性不等长时的比较次数，提高记录内算法的执行速度。试验表明，长度约束条件和启发式剪枝改进算法具有较明显的效果。第三，提出了基于动态规划的缩写发现算法。该算法考虑了数据清理过程中缩写形式造成的重复记录识别问题，能够进行中英文缩写发现，并能识别存在缩写时的重复记录。第四，增量式多路优先队列算法IMPQ通过指定聚类队列的最大长度的方法，减少了队列数据的数量，从而减少了比较次数，提高了执行效率。第五，提出了数据仓库更新的增量式清理的方法。数据仓库数据庞大，数据刷新频繁，不清理难以保证数据质量，增量式清理方法为此提供了一个可行的思路。等值理论是用于决定给定数据是否重复的理论，是数据清理的一个核心问题之一。而传统等值理论是非此即彼式的，容易产生规则冲突现象，使得清理规则的编写和选择十分困难，而基于语义的等值理论受到人工智能的约束，在较长的一个时间里难以实现。因此，作者提出了基于模糊理论的等值理论，引入了相关的模糊运算和等值度的计算方法，解决了规则冲突问题，并能根据等值度对数据进行区间浏览。同时，通过设置关键字特别是关键字“Report”，使用户生成较小的、内容相似的曰志文件，便于用户查看和人工干预。这些大大缩短了操作的时间，有利于数据质量的提高。基于模糊理论的等值理论还在

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据集成关键技术的研究.pdfVIP