- 1
- 0
- 约4.91万字
- 约 55页
- 2019-05-26 发布于上海
- 举报
摘 要
近些年来,空间信息技术领域的高速发展使我们进入信息变革的时代。空间数据通 过传感器或者其他数据收集设备源源不断地收集起来,并呈指数级增长。为了能够有效 管理数据,人们发展了数据库技术,并在此基础上建立了空间信息系统。然而,空间信 息系统目前仍然只能提供给我们数据,却给不了我们数据以外的信息。人们已经不再满 足于数据表层的检索与查询,而是希望更深一步的认识数据,得到知识与发现。关联规 则挖掘可以从庞大的数据库中发现人们感兴趣的知识,但是需要花费大量的时间与资 源。在空间关联规则中引入并行计算,不但可以满足人们对空间数据不断增长的认知要 求,还可以降低数据挖掘时的时间与资源的消耗,以多台微型计算机来完成大型机才能 完成的工作。经典的关联规则有 Apriori 算法、DHP 算法、Partition 算法等等。它们主 要应用于顾客消费分析、目录设计、广告邮件分析、销售优化、仓储规划、网络故障分 析等。
通过对刘永彬于 2008 年提出的 TP-PB 算法的研究,本文提出了一种类似计算向量 内积的并行关联规则算法(Parallel Vectors Inner-product,PVI 算法)用于遥感数据挖掘 系统。算法通过改进计算频繁项目集方法和优化数据读取,使算法寻找频繁项目集的效 率大幅度提高。同时利用“廉价”的微型计算机资源,按照数据特点采用并行计算使得 整个空间关联规则的挖掘效率进一步提高。经过对并行空间关联规则的研究,取得了如 下研究成果:
1)简化计算频繁项集的方法。使用布尔型数据可以有效降低了 PVI 算法的复杂度, 并且 PVI 算法使用类似计算向量内积的方法来计算候选频繁项集,并利用 k-1 阶频繁项 集计算 k 阶频繁项集,大大简化了计算步骤,提高了算法的并行性。
2)减少扫描数据库次数。TP-PB 算法发现知识时需要扫描数据库 2 次,而 PVI 算 法通过计算时记录有效信息,只需扫描数据库一次,相比于 TP-PB 算法减少了 I/O 操作。 数据的 I/O 操作会占算法开销的很大一部分,PVI 算法减少了对数据库的扫描,大大提 高了算法效率。
3)空间关联规则引入并行计算。PVI 算法采取冗余存储与减少 I/O 操作来降低任务 完成时间。控制机将挖掘任务分配后,并行机自行根据任务在本地读取数据,进行知识 发现。其次,为了使并行机尽量不处于空闲状态,应将子任务数量划分为并行机个数的
I
II
II
整数倍并兼顾粒度。
4)将并行的空间关联规则算法嵌入到遥感数据挖掘系统中,实现对海量遥感数据 的展示与知识发现。采用 B/S 模式,使用户可以通过网络在网页浏览器上随时随地查看 遥感数据。系统采用微软先进的图形开发工具 WPF 开发呈现,并可以对遥感数据进行 漫游、放大、缩小、FullExtent 等操作。在设置最小支持度阈值与最小置信度阈值后, 提交遥感数据挖掘任务。
关键词:空间数据,关联规则,并行计算,频繁项集,剪枝
ABSTRACT
In recent years, the rapid development of the spatial information technology field causes us to enter the time which the information transformed. The data collects continuously through the sensor and other data-acquisition equipment, assumes the exponential order to grow. The people have developed the computer database technology, and have established the spatial information system based on this. But the spatial information system provided is still only a data at present, and could not supply the information outside the data. But the people already no longer satisfy the surface layer data retrieval and the inquiry, hope to get the in-depth data, obtain the knowledge and the discovery. Association rule algorithms discover the knowledge from
您可能关注的文档
- 抗氧化剂对冷冻人颗粒脂肪组织的保护作用-临床医学(外科学)专业毕业论文.docx
- 面向自主创新的企业技术战略作用机理及决策研究-技术经济及管理专业毕业论文.docx
- 绵果荠、卷果涩荠CBF基因的克隆及分析-生物化学与分子生物学专业毕业论文.docx
- 美国PBL教学模式及在我国高校研究生教学中的应用研究-比较教育学专业毕业论文.docx
- 煤矿瓦斯智能传感器的应用研究-控制理论与控制工程专业毕业论文.docx
- 枯草芽孢杆菌胞苷生产菌株的构建-生物化学与分子生物学专业毕业论文.docx
- 面向服务的系统可视化开发系统的研究与实现-计算机软件与理论专业毕业论文.docx
- 煤矸石应用于道路底基层的路用性能试验研究-道路与铁道工程专业毕业论文.docx
- 洛阳汉画像砖艺术分析-考古学专业毕业论文.docx
- 抗抑菌洗涤剂的研究与制备-化学工程专业毕业论文.docx
- 山西天一大联考2025-2026学年高二上学期期末学情监测语文试题(试卷+解析).docx
- 山西忻州部分学校2025-2026学年高一上学期2月质量检测数学试题(人教B版)(试卷+解析).docx
- 山西运城市2025-2026学年高二第一学期期末调研测试数学试题(试卷+解析).docx
- 陕西省榆林市榆阳区2025-2026学年八年级上学期期末地理试题(试卷+解析).docx
- 陕西西安市碑林区2025-2026学年度第一学期期末八年级生物试题(试卷+解析).docx
- 四川省广元市苍溪县2025-2026年八年级上学期期末道德与法治试题(试卷+解析).docx
- 江苏泰州市姜堰区2025-2026学年七年级上学期1月期末数学试题(试卷+解析).docx
- 江苏省扬州市邗江区2025-2026学年九年级上学期期末考试化学试题(试卷+解析).docx
- 江西上饶市铅山县2025-2026学年第一学期期末考试八年级数学试题(试卷+解析).docx
- 江苏扬州市高邮市2025-2026学年度第一学期期末学业质量监测试题九年级英语(试卷+解析).docx
原创力文档

文档评论(0)