基于Apriori和Gri算法的我国网民网络活动关联规则分析.docxVIP

基于Apriori和Gri算法的我国网民网络活动关联规则分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Apriori和Gri算法的我国网民网络活动关联规则分析   摘要:网络活动已成为人们日常生活的重要组成部分,研究我国网民网络活动对促进“互联网+”经济发展以及网民网络活动向着健康有益的方向发展具有重要的理论和现实意义。运用关联规则挖掘的apriori算法和gri算法,对网民网络活动间的关联性以及网民特征与网络活动的关联性进行分析。研究表明,上网聊天、了解新闻资讯、收发邮件、观看视频、购物与收集资料、下载资源和软件密切关联;玩游戏、购物、观看视频、收集资料、下载资源和软件与上网聊天密切关联;未婚大学生网民进行收集资料、下载资源和软件的网络活动,从而获得对学习有益的信息和资源,上网聊天也已成为青年人的主要网络活动形式;本科大学男生更喜欢玩游戏,而城镇已婚男性或者学历为硕士研究生的网民偏爱于了解新闻资讯。   关键词:网络活动;关联规则;apriori算法;gri算法   中图分类号:f224文献标志码:a文章编号:1673-291x(2020)10-0130-06   引言   2017年1月,中国互联网络信息中心(cnnic)在第39次《中国互联网络发展状况统计报告》中指出,截至2016年12月,中国网民规模达7.31亿,相当于欧洲人口总量,互联网普及率达到53.2%,比全球平均水平高出了3.1个百分点,超过亚洲平均水平7.6个百分点。从上网时长来看,中国网民的人均周上网时长为26.4小时,网络已深入到我国国民的生活中,网络活动也已成为日常生活中的重要组成部分。网络活动日益丰富,网络活动间必然存在某些联动关系,并且网民特征与网络活动也存在着某种关联,了解这些关联可以帮助互联网企业在激烈的市场竞争中获得有利地位,可以更好地满足网民的上网需求。   随着信息化时代的发展,网民网络活动引起了国内外学者的关注,对网络数据的挖掘与研究成为了一个热点问题。yu等、li等、ríos等通过收集在web日志数据运用关联规则对网民的网络活动进行了分析,发掘网民的用户特征,从而不断完善网站的结构和提高用户的客户体验[1~3]。liao等、najafabadi等通过使用关联规则挖掘来有效地处理海量数据,在关联规则中捕获每个事务的多个购买,从而获取多个购买行为的用户之间的相似的兴趣模式[4~5]。缪红保等通过对用户网络流量进行协议投影而获得其行为模式和特征[6]。付关友等基于心理学的角度,用线性回归模型来描述用户浏览行为与关注度之间的相关性[7]。王实等挖掘web访问页面之间用户访问的关联度规则,对web站点的结构进行调整和优化[8]。高琳琪采用模糊相似度分析用户偏好结构与新闻结构的相似性,建立模型提供个性化新闻推荐服务,进行精细化的市场定位[9]。   国内外学者从不同角度对网民网络活动间问题进行了分析,并将获得规律运用至商业领域。本文则通过1337份调查问卷,基于关联规则挖掘的apriori算法以及gri算法两种算法,进一步探寻网民网络活动之间,以及网民特征与网络活动之间的关联规则模型。研究成果对了解当下我国网民的网络活动状况,促进“互联网+”经济及网民网络活动向着健康有益的方向发展具有重要的理论和现实意义。   一、数据来源与模型描述   1.数据来源。本研究通过问卷设计,网上调查和实地调查相结合,邀请被调查者在问卷星网站作答或通过调查员纸质问卷开展调查,共发放问卷1500份,回收1350份,有效问卷1337份。所有缺省数据的处理由spssclemenetine12.0自动处理,不影响本研究的最终结果。   2.关联规则模型描述。关联规则最早由agrawal等学者提出,主要用于研究超市顾客购买商品之间的规律,称为购物篮分析,其目的是为了挖掘隐藏在数据间的相互关系。简单关联规则的一般表现形式是:x→y。其中,x称为规则的前项,y称为规则的后项。规则置信度是对简单关联规则准确度的测量,规则支持度则测度简单关联规则的普遍性。判定简单关联规则实用性指标,主要有规则提升度、置信差、置信率等。本研究主要采用规则提升度,反映了项目x的出现对项目y出现的影响程度,一般大于1才有意义。   3.apriori算法与gri算法。apriori算法与gri算法均是用于简单关联分析。区别在于:第一,apriori算法只能处理分类型变量,而gri算法不但能处理分类型变量,而且前项还可以为数值型变量;第二,apriori算法中数据可以按事务表和事实表方式两种方式存储,而gri算法只能按事实表方式存储;第三,apriori算法依据频繁项集产生关联规则,而gri算法采用深度优先搜索(depthfirstsearch)策略实现算法。为此,本研究在分析网民网络活动关联规则时使用apriori

文档评论(0)

180****8756 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体盛世风云(深圳)网络科技有限公司
IP属地陕西
统一社会信用代码/组织机构代码
91440300069269024M

1亿VIP精品文档

相关文档