- 31
- 0
- 约 100页
- 2017-05-09 发布于安徽
- 举报
第二,引入了长度约束条件。长度约束条件可有效减少关键字段属性不等长时的比较
次数,提高记录内算法的执行速度。试验表明,长度约束条件和启发式剪枝改进算法
具有较明显的效果。第三,提出了基于动态规划的缩写发现算法。该算法考虑了数据
清理过程中缩写形式造成的重复记录识别问题,能够进行中英文缩写发现,并能识别
存在缩写时的重复记录。第四,增量式多路优先队列算法IMPQ通过指定聚类队列的
最大长度的方法,减少了队列数据的数量,从而减少了比较次数,提高了执行效率。
第五,提出了数据仓库更新的增量式清理的方法。数据仓库数据庞大,数据刷新频繁,
不清理难以保证数据质量,增量式清理方法为此提供了一个可行的思路。
等值理论是用于决定给定数据是否重复的理论,是数据清理的一个核心问题之一。
而传统等值理论是非此即彼式的,容易产生规则冲突现象,使得清理规则的编写和选
择十分困难,而基于语义的等值理论受到人工智能的约束,在较长的一个时间里难以
实现。因此,作者提出了基于模糊理论的等值理论,引入了相关的模糊运算和等值度
的计算方法,解决了规则冲突问题,并能根据等值度对数据进行区间浏览。同时,通
过设置关键字特别是关键字“Report”,使用户生成较小的、内容相似的曰志文件,便
于用户查看和人工干预。这些大大缩短了操作的时间,有利于数据质量的提高。基于
模糊理论的等值理论还在
您可能关注的文档
最近下载
- 2012年01月自学考试05743《基础营养学》试题和答案.pdf VIP
- D101-7~7 电缆敷设(2013年合订本).pdf VIP
- 2010年01月05743自考基础营养学试题及答案.pdf VIP
- 2011年10月05743自考基础营养学试题及答案.pdf VIP
- 《生物电子等排》-公开·课件.ppt VIP
- 新解读《FZ_T 51023—2024纤维级循环再利用聚己内酰胺(PA6)切片》最新解读.docx VIP
- 2020年10月自考05743基础营养学试题及答案含解析.pdf VIP
- ASME BPVC VIII-2-2015 双语版.docx
- 人教版(PEP)新教材小学二年级英语下册Unit 3 单元测试卷.docx VIP
- 20以内计算练习题(每日一练,共16份).docx VIP
原创力文档

文档评论(0)