- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于喜好标签的移动互联网用户行为分类研究.doc
基于喜好标签的移动互联网用户行为分类研究
【摘 要】提出一种基于移动互联网个体用户的实际行为得出其喜好标签,据此将同类信息推送给个体用户的方法,该方法能够实现精确推送,因此推送的内容更加容易被用户接受,从而商业价值性价比更高。首先阐述了个体用户实际行为数据的提取方法,比较了各方法的优缺点;其次提出了一种固定质心的k-means文本聚类方法,能够快速、准确地实现用户喜好标签分类;最后分析了精确营销模式以及后续的研究方向。
【关键词】喜好标签 移动互联网 用户行为分析 文本聚类 精确营销
中图分类号:TP301.6 文献标志码:A 文章编号:1006-1010(2016)09-0093-04
1 引言
近年来,随着智能移动终端的基本普及,移动互联网[1]发展迅猛,在人们的衣食住行中无时无刻不扮演着重要角色,可以说移动互联网正在或者已经改变了人们的生活方式。移动互联网有两个特点:一是移动通信与互联网二者融合,即用户可以通过移动终端和互联网实现随时互联;二是大批应用伴随移动互联网而产生,这些应用与移动终端的可移动性、可便携性相结合,随时为用户提供个性化服务[2]。用户可以通过移动互联网实现实时的信息接收、发送和交互等。运营商和各大电商们也充分抓住这个机会,利用移动互联网通道,将大量的信息资源推送给群体用户,而对于个体用户而言,由于这种信息推送没有针对性,在反复收到海量信息后,心理上会造成疲劳甚至是反感。另一方面,个体用户在寻找自己喜欢或者希望获得的信息资源时又很困难。因此,根据移动互联网个体用户的实际行为,分析出其喜好标签,从而实现信息精确推送,可以有效地解决这一问题,这既能为运营商和电商们发掘潜在用户,又能改善个体用户的体验,最终实现双赢。
早期对互联网用户行为的分析[3]比较多,方法也比较成熟,已经形成基本的网络特性,这种用户行为研究偏向于探究个体用户的上网意图,比如:浏览网页的频率、停留的时间、网页的分类等。但是目前对于移动互联网用户行为的分析方法还不够成熟,尤其是国内,对在该方面的研究成果非常有限。本文主要阐述了一种基于喜好标签的移动互联网用户行为分类方法,该方法从微观角度,根据个体用户对于移动互联网的实际使用数据,得到用户的喜好标签,从而达到用户分类的目的。在这个过程中,列举了几种典型的移动互联网原始数据获取方法,分析了各方法的优缺点,进而通过聚类算法,将原始数据进行文本聚类,从而得到用户分类的结果。最后还阐述了该方法的应用远景以及对其商业价值的预判。
2 数据获取
移动互联网体系包括3个层面:移动终端、移动网络和应用服务。首先针对移动互联网的应用服务层进行原始数据收集。移动互联网的数据获取方式大致分为两种,一种是基于WAP(Wireless Application Protocol,无线应用通讯协议)网关的采集,另一种是基于网络交换机数据包的采集。
WAP网关是承载移动数据业务的关键网元,起到了数据业务统一接入的作用,因此WAP网关是移动终端连接移动互联网的重要枢纽[4]。基于WAP网关进行移动互联网数据采集是通过WAP网关的自带功能,将WAP协议下的数据分成多个详细字段,将这些字段数据信息进行一次日志化。由于这些都是原始数据,包含很多冗余信息,这样会使用户行为的分类不够准确,从而导致最终分类错误,因此需要利用信息过滤程序对原始数据进行信息过滤,形成最终具有固定模式的有效数据集,最后再将这些真正有价值的信息写进日志文件,即可完成数据采集。这种数据获取方法的优点是简单方便,利用WAP网关自带功能即可完成对原始数据的采集;另一方面,这种采集方式也是基于用户请求的应用层协议,不会把底层的数据全部采集过来,简化了过滤过程。由于此处数据获取是为最终的用户行为分类做准备,因此需要尽量多地获取数据,但无需全部获取,对于加密型WAP协议等,可以只获取通道途径,无需获取实际内容。
网络交换机是一种用于扩大网络的器材,能够为子网络提供连接的通道。随着互联网逐渐成为当今越来越重要的局域网组网技术,网络交换机也成为了最普及的交换机[5]。基于网络交换机数据包的采集方法是利用网络数据包捕获应用,将需要的网络数据捕获、过滤,从而完成数据采集。具体过程是在网络交换机上放置一种数据包采集应用,将流过该网络交换机的所有数据中属于个体用户的数据包识别并捕获,构成原始数据集,然后经过信息过滤程序、文件重组等过程,形成最终的有效数据集。这种方法的缺点是设置过滤条件比较困难,需要调用一些库函数等工具,并且设置过程也比较复杂。
3 数据分析
在数据获取的基础上,利用文本聚类的方法,对有效数据进行分析,最终达到用户分类的目的。
计算机处理无结构的词语文本比较困难,通常采用的方法是利用
文档评论(0)