基于大数据的用户行为分析研究.docVIP

下载本文档

168
0
约2.52千字
约 5页
2017-03-29 发布于北京
举报
版权申诉

基于大数据的用户行为分析研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于大数据的用户行为分析研究.doc

基于大数据的用户行为分析研究　　摘要社交网络媒体发展备受关注，微信、微博以及博客等社交媒体不断使人们生活方式发生改变。微信、QQ、微博、大众点评、美团、淘宝、京东以及亚马逊等用户日益增加，用户通过朋友圈或主动发出评论的数量逐渐递增。在信息化多元化的时代，用户已经成为各个行业的代言人，为品牌推广起到不可替代的作用。如何更好地获取用户真实的购买意愿，并精准的为用户提供购物渠道和优惠信息，将成为提升品牌荣誉、改善用户体验以及获取最大效益的新型渠道。当前存在许多营销手段和推送方式，但准确度还不够，并且时常出现错误推送。本文通过利用销售的案例并结合数据分析来阐述中文舆情的可行性，利用Hadoop平台的文本分析和数据存储数据库（DB2 BLU），提高分析的准确程度。　　【关键词】信息化大数据 Hadoop 文本分析　　1 背景　　21 世纪是数据信息迅速膨胀的时代，互联网的应用范围和边界不断延伸，如移动互联、社交网络、电子商务等。现今，用户可以借助互联网平台表达社情民意，体现用户的意愿，评论和态度。例如京东的用户对某商品的评论信息，商家通过用户的评论和反馈分析，从而进行优化改善，为用户提供定制性的服务，甚至可以预测用户的需求，从而达到更加准确的销售目的；看似庞大无规则的数据，包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键，如何能够存储并分析海量数据，生成精确的用户标签，依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用 DB2 BLU Acceleration，利用 DB2 BLU 速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于 Hadoop 的文本分析平台，快速进行中文分词和建立标签词典，本文将在后面章节进行具体介绍。　　2 中文微博数据分析逻辑　　微博是现代网络社会沟通的重要工具，以新浪微博为例，很多大型零售商会建立自己主页，发布近期的打折、新品信息。但是，这些信息往往不能针对每个用户的喜好来发布，类似于广播一样，每一条微博是否对每个粉丝（用户）有意义，需要用户自己来过滤。　　但实际上，粉丝自身发布的微博含有大量的数据信息，这些信息包含用户的个人爱好，自己年龄阶段，近期的想购买的款式，甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。　　如图 1，显示了整个营销分析流程的逻辑。从客户发布微博开始，到商家向用户发布商品目录和优惠信息，整个流程分为五个步骤：　　（1）客户发布微博，从微博上初步获取的数据为“粗数据”，掌握用户自定义的标签，作为用户肖像的一部分。　　（2）获取商家的粉丝。　　（3）将用户的微博进行语义分析，基于 Hadoop 的文本分析平台将对中文进行分词，分词后将与字典进行比较和分类，总结出该用户的兴趣爱好所在。　　（4）指定相关营销策略，根据微博内容实时或定时更新客户肖像，向用户推送相应的商品折扣和新上架产品信息。　　（5）消费者使用消费券或根据打折信息购买相关产品。　　3 方案架构　　整个系统架构，如图 2 所示，主要由文本分析系统、DB2 BLU 数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后，将原始数据送入文本分析平台进行分析，主要做中文分词、情感分析等工作；然后将文本分析结果整合后输出送入 DB2 BLU 数据库中，进行存储、建表，建表包括客户肖像表、商品目录表、促销策略表等；最后，利用 DB2 BLU 与Cognos无缝集成的优势，用Cognos对数据进行分析。根据Cognos分析出的结果，生成促销的报表，继而将优惠信息分别推送给每个用户。　　如图3所示，为基于 Hadoop 平台的文本分析架构图，整个架构主要由三部分组成：引擎部分：用户发布的微博中获取的数据生成文本格式送入文本分析引擎，在输入之前，由于客户的 ID、性别、地点已经提取出来，可以作为客户肖像的一部分，但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词，以及动词后的名词分开，情感词，以及表达情感的对象分开等。词汇库部分，主要负责存储客户合作模型的词汇词典，这一部分的词典部分有手工添加，部分由系统根据词汇库聚类生成，词汇库存于HBase上；最后是负责输入输出文本的部分，这一部分利用 JAQL 来拼接“原始标签”与分词后的标签，一起构成客户肖像表。　　本文用于存储客户肖像的为 DB2 BLU Acceleration。BLU Acceleration 的架构如图4所示。　　使用 DB2 BLU 具有的性能优势，采用列式存储，只对需要的数据列进行读取，可以减少I/O。采用霍夫曼编码对数据进行压缩，降低内存消耗。SQL采用并行运