- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕士学位论文
由于公安行业的特殊性,公安信息化也对数据挖掘提出了特殊性的要求。尤
其是,伴随着社会政治、经济和科技的高速发展,犯罪速度也随之发生变化,主
要表现在:一是新型犯罪层出不穷,表现出犯罪的滋生速度呈快速递增态势;二
是大案、要案的案件数呈现上升趋势,在犯罪演化推进中,整体犯罪呈恶性化态
势,表现出犯罪的升级速度,过去闻所未闻的恶性案件时有发生;三是在犯罪格
局分布中,动态犯罪传播时间缩短,表现出犯罪的扩张速度加快。正是由于以上
一些特征,要求公安系统应加快执法理念与警务创新,加快警务决策、提高执法
效率、以快制快,更有效的打击与制止犯罪。公安信息化作为加快警务决策、提
高执法效率的重要手段之一,应用数据挖掘技术对那些信息化系统中的海量数据
进行挖掘,必须要满足公安行业特殊性要求,以快速准确辅助警务决策、指导警
务工作、提高执法效率,这是公安信息化的未来发展方向。
本文的组织结构
本文共分为六章,包括了以下一些内容:
第一章介绍了数据挖掘的背景、现状和应用,公安工作信息化和金盾工程,
数据挖掘技术在公安信息化中的重要意义。
第二章介绍了数据挖掘的概念,包括定义、对象和分类;数据挖掘的主要任
务:概念/类描述、分类、关联规则和聚类;数据挖掘的主要技术:决策数、神
经网络、规则归纳、粗集方法、遗传算法、OLAP 和可视化技术。
第三章详细讨论了决策树ID3 算法有关概念和技术,以实例构造了犯罪程度
决策树,指出了 ID3 算法在公安工作中存在的问题,并据此提出了改进方法—
—信息增益度法,最后做了两种结果比较分析。
第四章介绍了关联规则的基本概念、问题描述和种类,研究了 Apriori 算法
在公安信息挖掘中的应用,包括应用目标、实例构造关联挖掘、实验测试结果及
评价。
第五章基于 J AVA 开放源码软件 WEKA 设计和实现了公安信息数据挖掘系
统PIDMS,并在其上进行了仿真测试,用系统生成了分类模型和关联模型。
第六章指出下一步工作及需要完善的地方。
5
第2 章 数据挖掘技术
第2 章 数据挖掘技术
数据挖掘的概念
什么是数据挖掘
数据挖掘是数据库技术、人工智能、机器学习和统计学等学科相结合的产物
[1,2,3,5,6],它有很多同义词,如“数据采掘”、“数据开采”、“数据发掘”等;还有
很多和这一术语相近的术语,如数据库中知识发现,数据分析,知识抽取,模式
分析,数据采集,商业智能,数据融合,决策支持等。其定义的形式也多种多样,
本文采用当前比较流行的、Jiawei Han 教授给出的定义:数据挖掘是指从存放在
数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程[1]。简单地
说,数据挖掘是从大量数据中提取或“挖掘”知识。数据挖掘有广义和狭义之分,
广义的数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、潜在有
用的信息的非平凡过程,它是由 G.Piatetsky-Shapior,W.J.Frawley 等人提出的。
狭义的数据挖掘则把数据挖掘作为KDD 的一个基本步骤。数据库中知识发现的
过程如图2.1 所示,它由下列步骤组成:
图2-1 KDD过程
Fig.2-1 KDD process
①数据清理:消除噪声或不一致数据。
②数据集成:将多种数据库中的数据组合在一起。
③数据选择:从数据库中检索与分析任务相关的数据。
④数据变换:将数据变换或统一成适合挖掘的形式。比如,通过汇总等操作。
⑤数据挖掘:它是基本步骤,使用智能方法提取数据模式。
⑥模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。
⑦知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。
6
硕士学位论文
从上述步骤可以看出,数据挖掘只是整个过程中的一个步骤。然而,在大多
数场合,人们采用广义的数据挖掘观点,即把数据挖掘与KDD 视为同义词。
基于广义的数据挖掘观点,典型的数据挖掘系统[1]具有以下主要成分,如图
所示。
图2-2 典型的数据挖掘系统结构
Fig.2-2 Typical data mining system structure
①数据库、数据仓库或其它信息库:这是一个或一组数据库、数据仓库、电
子表格或其它类型的信息库,可以对其进行数据清理和集成。
②数据库或数据仓库服务器:根据用户的数据挖掘请求,服务器负责提取相
关数据。
③知识库:领域知识用于指导搜索,或评估结果模式的兴趣度。
④数据挖掘引擎:它是数据挖掘系统的基本部分,由一组数据挖掘模块组成,
用于特征化、关联、分类、聚类分析以及演变和偏差分析。
⑤模式评估模块:通常,它使用兴趣度度量,并与数据挖掘模块交互,以便
将搜索聚焦在有趣的模式上。
⑥图形用户界面:此模块在用户和数据挖掘系统之间通信,允许用户与系统
交互,指定数据挖掘查询,提
您可能关注的文档
- 原研哉设计理念及风格研究.doc
- 上市公司负债融资对投资行为影响的研究——以采掘业为例.doc
- 基于高分辨率遥感影像土地覆盖变化检测研究.doc
- 汉语句法树库不一致发现系统的设计与实现.doc
- 任务型合作学习模式在泰国汉语口语教学中的应用研究——以派克圣科技管理学校为例.doc
- 政府行为与医药制造业集聚研究.doc
- 小儿泄泻证素分布及组合规律的临床研究.doc
- 家族性腺瘤性息肉病APC基因突变分析.doc
- 终极所有权结构对内部控制信息披露质量影响研究.doc
- 提升机制动性能安全评价方法与监测系统的研究.doc
- 2025年市国资委党委开展深入贯彻中央八项规定精神学习教育工作方案与开展学习中央八项规定主题教育工作方案(2篇文).docx
- 在2025年市商务局党组研究部署深入贯彻中央八项规定精神学习教育专题会上的讲话稿、教育动员部署会议上的讲话提纲【2篇文】.docx
- 开展2025年学习八项规定主题教育工作方案与领导在局机关深入贯彻八项规定精神学习教育部署会上的讲话稿(两篇文).docx
- 2025年深入贯彻中央八项规定精神学习教育实施方案与全面落实中央八项规定精神情况总结(2篇文).docx
- 2025年落实中央八项规定精神情况总结稿与领导在深入贯彻中央八项规定精神学习教育工作会议的主持讲话稿(2篇文).docx
- 2025年组织部长在八项规定学习教育工作专班座谈会的讲话稿与开展学习中央八项规定主题教育工作方案(两篇文).docx
- 学习2025年深入贯彻中央八项规定精神知识测试题135题【附答案】与全面深入贯彻中央八项规定精神学习教育实施方案.docx
- 2025年县委书记在中央八项规定精神学习教育动员会上的讲话稿遵守党的政治纪律和落实中央八项规定精神情况个人对照检查材料(2篇文).docx
- 2025年在深入贯彻中央八项规定精神学习教育动员部署会上的讲话稿与在市委党的建设工作领导小组会议暨部署深入贯彻中央八项规定精神学习教育专题会讲话稿(两篇文).docx
- 2025年市工业园区党工委开展深入贯彻中央八项规定精神学习教育工作方案与深入贯彻中央八项规定精神学习教育动员部署会讲话提纲【2篇文】.docx
文档评论(0)