数据挖掘课程论文..docVIP

下载本文档

119
0
约5.54千字
约 9页
2017-01-06 发布于重庆
举报
版权申诉

数据挖掘课程论文..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘课程论文.

贵州大学数据挖掘课程论文院系数学与统计学院专业信息与计算科学课程名称数据挖掘论文题目面向社会网络分析的数据挖掘方法姓名杨洪学号 1400100094 指导教师程贞敏 2016年 12月20日面向社会网络分析的数据挖掘方法摘要在发展信息的同时，收集了许多社会关系数据。如果能对它们进行有效的分析，就会加深对社会学的认识，促进社会学的发展。然而，越来越多的数据分析技术提出了巨大的挑战。目前，社会网络的规模已经超过了原有的分析手段的处理能力，必须使用更有效的工具来完成分析任务。数据挖掘在许多领域发挥着重要的作用.。社会网络分析也称为链接挖掘，是指利用数据挖掘方法处理社会网络数据。介绍了数据挖掘和社会网络分析的一些方法，总结了数据挖掘算法在社会网络分析中的应用。 1.引言传统的学习算法用向量来表示一个学科，假设两个学科之间的患病率是相互独立的，这就知道一个病人对于其他学科的诊断是病的，不能提供任何帮助。直观的经验告诉我们，这种假设是不合理的。直到第二十世纪，Jacob Moreno和哈佛大学的一组研究人员分别提出了社会网络模型来分析社会学中的现象和问题.。现代社会学主要研究现代社会的发展和社会组织或群体行为。社会学家发现社会实体之间存在着相互依赖和联系，对每个社会实体都有重要影响。在此基础上，利用网络模型描述社会实体之间的关系，进一步分析社会关系的模式和隐含规则。为了更好地研究这个问题，他们试图用图形结构描述社会网络结构。一个社会网络由许多节点（节点）和一个或多个特定的链接（链接）连接这些节点。节点通常单独或分组表示，即传统的数据挖掘数据链实例，表示它们之间的关系（如关系），如朋友、亲戚、贸易关系、关系等。由于数据收集的局限性，早期的社交网络仅限于一个小群体，往往只包含几十个节点。借助图论和概率统计，人工处理可以分析一些简单的属性和模式。然而，随着现代通信技术的发展，越来越多的数据被收集和整合在一起，有可能建立一个大型的社会网络。例如，可以使用电子邮件日志建立用户之间的网络联系，或者通过网络日志和网络通讯录等方式，向用户提交构建社交网络的联系信息。因此，目前的社交网络规模比早期的网络，通常包含数千或几万个节点，甚至多达一百万个节点的网络。面对如此庞大的复杂网络，简单的数学知识和原来的手工处理已经无法有效分析。数据挖掘是解决数据量大的问题，但缺乏有效的分析手段。社会网络分析是关系数据挖掘的主要应用。本文分析了社会网络数据分析的方法，任务和要求，并介绍了适用于社交网络分析的几种数据挖掘算法。2.社会网络和数据挖掘方法介绍 2.1社会网络分析方法社交网络分析是用于分析由多个人相互连接的网络的结构，属性和其他属性的分析方法的集合。如社会网络分析方法提供的节点在网络中的基础将紧密联系到分层网络的方法，节点在网络交互模式识别，网络划分，用户评级，信息传播等方面提供了图形描述社会网络，分布中心。在这里我们介绍两个最重要的社会网络分析模型，用户用户网络模型和用户事件网络模型。 2.2数据挖掘方法数据挖掘（Data Mining）是从大，不完全，嘈杂，模糊和随机数据，其中隐含提取，人们不提前知道，但是潜在有用的信息和知识。类似于数据挖掘的同义词在知识发现（KDD知识发现数据库），数据分析，数据融合和决策支持。这个定义包括几个含义??：数据源必须是真实的，大的和嘈杂的;这是用户知识感兴趣的;知识发现是可以接受和可理解的，可以使用;不需要普遍知识，只有找到问题具体支持。所有发现的知识是相对的，对于特定领域存在具体的前提条件和约束，但是用户也可以容易地理解。最好使用自然语言表达发现。数据挖掘的任务是从数据中发现模式。有很多种模式，根据功能可以分为两类：预测模型和描述模型。第一个是预测模型，其可以基于数据项的值准确地确定模型的结果。在挖掘预测模型中使用的数据也是清楚地知道的。第二种是描述性模式，即描述数据中的规则，或根据数据的相似性对数据进行分组。本文主要介绍关联规则分析和聚类分析。 2.2.1关联规则分析在Jiawei Han的“数据挖掘概念和技术”将在关联规则中定义如下：集合I = {I1，I2，...，Im}是项目的集合。任务相关数据D是数据库事务的集合，其中每个T是产生T I的项目的集合。每个事务具有称为TID的标识符。令A是项集，事务T包含A当且仅当A T。关联规则被形成像包含类型B的A，包括A I，B I，A和B =。规则A B在具有支持s的事务D中建立，其中s是包含A B（即，集合A和B以及A或B二