数据集成关键技术的研究.pdfVIP

  • 31
  • 0
  • 约 100页
  • 2017-05-09 发布于安徽
  • 举报
第二,引入了长度约束条件。长度约束条件可有效减少关键字段属性不等长时的比较 次数,提高记录内算法的执行速度。试验表明,长度约束条件和启发式剪枝改进算法 具有较明显的效果。第三,提出了基于动态规划的缩写发现算法。该算法考虑了数据 清理过程中缩写形式造成的重复记录识别问题,能够进行中英文缩写发现,并能识别 存在缩写时的重复记录。第四,增量式多路优先队列算法IMPQ通过指定聚类队列的 最大长度的方法,减少了队列数据的数量,从而减少了比较次数,提高了执行效率。 第五,提出了数据仓库更新的增量式清理的方法。数据仓库数据庞大,数据刷新频繁, 不清理难以保证数据质量,增量式清理方法为此提供了一个可行的思路。 等值理论是用于决定给定数据是否重复的理论,是数据清理的一个核心问题之一。 而传统等值理论是非此即彼式的,容易产生规则冲突现象,使得清理规则的编写和选 择十分困难,而基于语义的等值理论受到人工智能的约束,在较长的一个时间里难以 实现。因此,作者提出了基于模糊理论的等值理论,引入了相关的模糊运算和等值度 的计算方法,解决了规则冲突问题,并能根据等值度对数据进行区间浏览。同时,通 过设置关键字特别是关键字“Report”,使用户生成较小的、内容相似的曰志文件,便 于用户查看和人工干预。这些大大缩短了操作的时间,有利于数据质量的提高。基于 模糊理论的等值理论还在

文档评论(0)

1亿VIP精品文档

相关文档