网络模式下用户数据挖掘算法研究.docVIP

下载本文档

1
0
约6.32千字
约 14页
2018-09-18 发布于福建
举报
版权申诉

网络模式下用户数据挖掘算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络模式下用户数据挖掘算法研究

网络模式下用户数据挖掘算法研究　　摘要：近来社交网络的研究主要在社会网络分析方面，包括公共关系、大众传播等领域，借鉴并融合了心理学、传播学、社会学、信息论等多学科，逐步演变成为完整化、系统化的理论研究策略。这对在线社交网络的数据分析与数据挖掘产生了非常大的挑战。那么，对于不同的数据源，如何用适合的挖掘算法进行挖掘分析是数据挖掘研究工作者需考虑的重要问题。　　关键词：网络模式；社交平台；网络用户；数据挖掘算法　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2017）29-0003-03 　　1 概述　　互联网高速发展时期，不同类型的网络社交媒体不断涌现，除微信、微博、博客等热门社交媒体外，其他应用型软件也相继出现网络社交媒体的属性，如百度网盘、淘宝、京东等。因此如今网络模式下，用户的社交属性无处不在的，这也相继产生了许多社交数据，如何充分的、有效的挖掘利用此类社交数据以及热门话题，这成为了很多学者和公司市场部门研究的热点方向。　　研究此类数据的原因是显而易见的，利用对社交媒体数据的挖掘和分析，可以增加对新话题的理解能力，达到商业中的人工智能，这也能对网络用户进行更好的服务，同时发现新的商机。如：对社会性网络中的数据进行分析，辨别筛选出在特定的社会网络用户群体中具有意见领袖特征的人；发现网络中一部分隐性兴趣群体，归类不一样的兴趣群组；找到特定用户，根据用户的某段时间内的主观情感进行主动规划和推荐信息等。网络模式下的社交网络数据研究，是一个有活力的研究方向，可以为不同交叉学科领域带来很大贡献。　　2 网络模式用户数据　　2.1 社交网络的分类　　网络模式下社交媒体多种多样，在概述部分已经进行了一些举例，下文进行详细的分类，如表1。　　2.2 网络模式数据的特征　　传统的数据，在分析之前，我们可以预见到它的趋势并制定相应的算法进行分析，而网络社交数据却存在着很大的差异性，网络社交数据的差异性体现在数据量庞大、非结构化、动态且分散[1]，因此，这种数据类型的数据分析，对高效的数据算法的需求很高。　　2.3 网络模式数据的价值　　网络数据从一些层面上看，体现出了用户在某个时段的特定需求，通过网络社交平台，直接或间接表达出了自身的需求，这就会给我们人类行为学的问题的研究带来很多便利，同时对商业平台的运营也会带来很大的帮助，比如：通过对社交平台的数据分析挖掘出潜在的客户并加以推销，对高效、新型的数据算法的需求也越来越强烈。　　3 网络模式下的数据研究思路　　3.1 社会性网络团体检测　　网络社交团体与实际生活中社团属性相似[2] ，同样是由个体组成的，并且网络社交团体中个体与个体之间的交流活动，会比个体与外界的交流活动要多。在真正意义上网络社交团体中，又分为显性的社交网络团体和隐性的社交网络群体。其中，显性的社交网络团体，就是一些具有相同爱好兴趣的用户主动聚集起来的团体，而隐性社交网络团体，则是由一些兴趣关注相同??体组成，个体之间的交流不多，但会在自然的网络环境的交流中逐渐发展为显性群体。　　由于显性的社交网络团体，特征明显，数据直观，研究的难度并不大，因此，我们所说的对于社交网络的社团的检测，一般我们是针对隐性群体[3]。这些网络社团的检测充满了挑战，因为这些团体的评估具有多样化的特征，通常没有决定性的正确。比如，在一个社交平台中，两个同时喜欢品茶的人，对茶的了解都非常深入，当我们把它们检测为隐性群体时，实际上两个人确实喜欢的完全不同的茶，一个喜欢喝绿茶，对红茶很反感，而另外一个人正好相反。　　通常在网络社团的检测中，我们使用以下几种方法：　　（1）使用以层级关系建立的社团检测法。其目标是创建出来一个社团的层级构架。可以采用不相同的策略来分析，比较常用的有合并时聚类和分裂式聚类。　　（2）使用以节点为中心的社团检测。判断节点是否符合一些特征，例如相互完整性、内外联系频繁性等，数据的分析者常用的策略有k-clubs、cliques等。　　（3）使用以网络为中心的社团检测。这一类的检测中，数据分析者一般将网络中一些不相交的子集，组织起来进行区分归类而实现，经典的有谱聚类和模块最大化等策略。　　本文以微博的社交数据的处理方法为研究对象，选取了基于模块化的最大值算法。例如：假设一个社会性网络被划分为N个社团Kn，定义模块化值为M（Kn）用做分别社交网络中社团质量的度量，表示公式为：　　在这里，W=（）n×n为权重值矩阵，A（V′，V″）= ，V为用户节点集合为全部与社团c中的节点有联系的边的权重和，为在社团c中全部边的权重和，表示整个社交图中边的权重和。　　在社会网络团体中，N个社团的构造特征越显著，M（Kn）的值就越