- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
姓名:杨德品 学号:1200901892 专业:计算机软件与理论 引言 数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。 数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。 引言 互联网的不断发展和网民数量的不断增加,使犯罪分子利用网络犯罪与日俱增。网络信息传播的便捷与迅速使得网络成为犯罪分子犯罪的重要手段。 面向社会网络分析的数据挖掘方法是社会网络分析中的基本而重要的功能,这一功能对于犯罪网络分析同样基本而重要。 犯罪网络分析主要是研究组织犯罪的,例如恐怖活动,毒品交易,欺诈行为,团体犯罪等。 引言 电子证据:电子证据是以数字的形式保存在计算机存储器或外部存储介要质中,能够证明案件真实情况的数据或信息,包括电子合同、电子信件、电子签名、聊天记录等。 实体:主要是文本中的专有名称,例如人名、地名、机构名、网号、网址、邮箱、IP以及时间表达式和数字表达式。 实体识别方法:基于规则的方法、基于语料库的方法、基于统计语言模型、最大熵模型以及多种模型相结合的方法。本文采用基于规则和语料库的方法。 引言 实体关系:需要预先定义,如亲属关系、师生关系等。 实体关系抽取:是信息抽取的重要组成部分,目的在于发现用户需要的信息。抽取方法有知识库的方法和机器学习的方法。 本文用CNCD算法来挖掘犯罪子网和核心人物。 算法思想:构建带有边权重的人物关系图,利用层次聚类的方法分析得到犯罪子网,根据人物的联系度、中介度和紧密度来计算核心度,识别出核心人物。 关键技术 一、实体识别 识别出文本中出现的专有名词和有意义的数量短语,并加以归类。 基于规则的方法:需要人工定义规则,费时费力,一方面规则的完备性受到质疑,另一方面规则之间的差异性很难界定,不适用于信息量庞大的关系抽取领域。 基于语料库和统计语言模型:是经典的机器学习的方法,特殊领域准确率和召回率达到90%以上。 遇到的问题:不规范的人名很难识别、特殊的人名和地名很难区分、复合名词很难准确确定范围。 关键技术 二、实体关系模型 根据网络犯罪的特点,拓展了实体类型定义,包括人物特征属性、银行帐号等信息,然后考虑实体之间的位置关系,构建关系树,并利用关系指示词确定具体的关系类型。 实体关系分类:个人的关系和组织的关系 关键技术 三、实体关系抽取 基于特征向量的方法:将分类对象表示成所有特征构成的高维空间中的一个向量,该向量表示这个对象的所有性质,避免了传统方法构建知识库的过程,提高了效率。 基于核的学习算法:最早在支持向量机方法中被使用。 关系树:是一种二叉树树形结构,叶子是具体的实体,中间结点是关系的类型。 关键技术 四、犯罪网络识别 (一)犯罪子网发现 矩阵置换法:NP困难问题 层次聚类法:能有效的找出用相同方法作案的嫌疑犯或识别出不同的犯罪组织。包括自顶向下和自底向上两种方法。聚类依据:两点之间的关系强度,关系强度(共现次数)越大,两点之间的距离越小。 关键技术 (二)、六度分割定理和最短路径 六度分割定理描述了社会网络的联通性质,社会中任何两个人之间只需要四个中介即可建立联系。 监视任意两个犯罪嫌疑人之间的联系过程,等同于网络中任意两个节点(嫌疑人)之间的最短距离,故采用Floyd算法计算最短距离,该算法的时间复杂度为O(N3)。 关键技术 (三)、关系分析 关系分析重点在于发现网络节点之间的关系和交互行为,常被用来识别网络核心人物和子网。 关键技术 (四)、核心人物识别方法CNCD A)赋权值,两个犯罪实体节点之间的共现频率表示链接权重; B)求最短路径,通过Floyd算法找到任意两个节点间的最短路径,并保留距离小于等于5的最短路径。 算法过程: A)根据收集的电子数据建立犯罪网络; B)采用层次聚类发掘犯罪网络子图即犯罪子团伙; C)用最短路径和核心度挖掘犯罪子团伙中的核心人物。 结束语
您可能关注的文档
最近下载
- 山东省泰安市2025届高三四模检测(泰安四模)英语试题及答案.docx VIP
- 2024-2025学年深圳中学初中部七年级入学分班考试数学试卷附答案解析.pdf
- GB50424-2015 油气输送管道穿越工程施工规范.docx VIP
- (2025秋新版)人教版三年级数学上册全册教案.docx
- 采矿工程毕业设计论文-麦地掌煤矿150万吨矿井初步设计.doc VIP
- 德隆煤矿90万吨初步设计.doc VIP
- 2025年山东黄金集团井下技能工人招聘(2000人)考试备考题库及答案解析.docx VIP
- 直肠癌手术编码.pptx VIP
- 2025秋统编版(2024)道德与法治一年级上册教学设计(全册) .pdf
- Unlock2 Unit4 第一篇听力讲解及答案.pptx VIP
文档评论(0)