网络数据挖掘论文.doc

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络数据挖掘论文

网络数据挖掘:发现属性之间深度联系的方法和技术 计算机科学与1102技术班 谢国庆(2011013755) 摘要:网络数据挖掘的定义出现在无数的个体数据和特殊的算法使用之间,它帮助完成模型的可视化和连接趋势。它补充传统的数据挖掘方法,传统的数据挖掘方法假设属性之间是独立的,在这些属性的值之间也是独立的。这些技术通常标记,警告实例或事件,因为和先前定义的模型或规则比较时,它们呈现异常的行为或者规则。它们为异常检测方法服务,可能组成异常的规则或定义能被知道和提前指定。许多问题适合这个方法。然而许多问题尤其是那些由复杂的自然属性组成的问题,这种方法就不是很适合。这些规则或定义不能简单的被定义。例如,交易数据的分析不被知道是可疑的交易。这篇论文展现一个以人为中心的网路数据挖掘的方法,这个方法说明了在数据属性和这些属性特殊的值之间的隐形关系的描写问题。一种现状研究从安全领域说明了方法的应用和相应的数据挖掘技术。这篇论文讨论了,对于索多问题,一个在基于可视化和人类认知的调查进程的发现的阶段是一个逻辑的先例,是补充的,自动化程度更高的一个异常检测阶段。 关键字:网络数据挖掘; 深度联系; 属性链接 介绍:数据扩展既是一个机遇又是一个挑战。它提供了商业需要解决问题和获得市场有利条件的细节,这个有机的组织需要提高他们的操作,银行和金融组织需要抵制欺骗,政府需要发现犯罪和恐怖的行为。于此同时,不同存储系统的大量的数据,大量的模式和所有复杂的内部模式经常可以比他泄露的隐藏更多。数据挖掘——大量数据库次要的分析过程目标在于发现不被怀疑的关系,这些关系是数据库拥有者的利益和价值——出现一个“折中的学科”,它说明了这些大量的数据。比数据挖掘更早的技术已经主要关注在对数据结构的分析。虽然这个数据挖掘的研究者已经开发了方法和技术来支持许多种类的任务,在主要的利益从业人员分析已经关注先前的模型。在先前的模型中的主要方案是一个“黑盒子”方法,我们已经有一个输入和一个或者多个输出的集合,我们尝试建立一个算法的模型来估计输出的价值,作为输入价值的功能。这有许多检测模型质量的方法,随着剩下的预测准确性作为一项重要的检测模型质量,而不是可能解释现象的理论。 图1说明了按照一个简单的关于一组大学朋友的数据的例子的相关概念。这个数据表包括了下面的列:学生的名字;头发的颜色;身高和体重;一份当他们在阳光下暴晒是否用防晒霜的报告;一份当他们在海滩上是否能晒伤的报告;一份关于接近生活区域的学生的报告;交易的参考号码;和学生的住址。双虚线轮廓数据表的部分被视为建模方法的预测。由于“姓名”这列包含唯一的标识,它不能被忽略,数据挖掘的任务将开发一种模型,是对来自这所大学学生的“头发”,“身高”,“体重”,“位置”和“在沙滩上”属性的一种模型。在不被怀疑的方法,学生将分成几组并以分析者终止于对不同组的描述。在这种情况下,分析者对预测一个新的学生在沙滩上是否将被晒伤。“在沙滩上”这个属性将被选择作为输出(或者目标),从“头发”的属性到“防晒露”的属性形式输入向量。为属性“头发”和属性“防晒露”赋值,最终的分类器应该能够预测是否会被晒伤的学生。测量模型质量的主要方法是预测的精确性,而不是这个理论可能通过属性值之间的关系来解释一种现象。 实际上,关注用“黑盒子”的方法来预测精度是很有道理的。例如,在更精确的肿瘤分类器是基于乳房X光照片的数据特征,它更好的目标在于它能提供给年轻的从业者。在商业领域像超市,这样一种方法更有意义(例如,决定那几本很少的书提供给需找一种特殊的书的人)。来自不同领域的人们努力的很多例子,包括科技和工程,被展现在这里。 这个理论解释“黑盒子”,也就是如何和为什么输入和输出有关系,这个理论对于预测的准确性经常是次要的。然而,数据挖掘应用在许多领域,包括商业和安全部门需要更深入的理解这个现象。如此复杂的现象可以从复杂系统的分析领域用技术来模型化。 这个网络视角与有关数据集在图1中说明。数据集的组成结构详细的描绘一些在个体本质之间的关系。社会网络分析处理这种数据分析。 图1. 在数据集合中不同的观点:这种传统的数据挖掘的观点,社会网络分析和数据挖掘的观点。 Fig.1. Different views at a data collection: the “classical” data mining view, the social network analysis and the network data mining view. 除此之外详细的编码关系,那边经常是隐性关系描述的实体之间的数据集,尤其在交易数据的领域。任何属性可以发挥为建立关系的程度取决于取样的调查。在图1的例子中,两个属性“交易参考号码”和“地址”已经被用做寻找在大学学生之间的可能连接。如此详细的在实体和

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档