- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据的用户行为分析研究.doc
基于大数据的用户行为分析研究
摘 要社交网络媒体发展备受关注,微信、微博以及博客等社交媒体不断使人们生活方式发生改变。微信、QQ、微博、大众点评、美团、淘宝、京东以及亚马逊等用户日益增加,用户通过朋友圈或主动发出评论的数量逐渐递增。在信息化多元化的时代,用户已经成为各个行业的代言人,为品牌推广起到不可替代的作用。如何更好地获取用户真实的购买意愿,并精准的为用户提供购物渠道和优惠信息,将成为提升品牌荣誉、改善用户体验以及获取最大效益的新型渠道。当前存在许多营销手段和推送方式,但准确度还不够,并且时常出现错误推送。本文通过利用销售的案例并结合数据分析来阐述中文舆情的可行性,利用Hadoop平台的文本分析和数据存储数据库(DB2 BLU),提高分析的准确程度。
【关键词】信息化大数据 Hadoop 文本分析
1 背景
21 世纪是数据信息迅速膨胀的时代,互联网的应用范围和边界不断延伸,如移动互联、社交网络、电子商务等。现今,用户可以借助互联网平台表达社情民意,体现用户的意愿,评论和态度。例如京东的用户对某商品的评论信息,商家通过用户的评论和反馈分析,从而进行优化改善,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;看似庞大无规则的数据,包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于 Hadoop 的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。
2 中文微博数据分析逻辑
微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,发布近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。
但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。
如图 1,显示了整个营销分析流程的逻辑。从客户发布微博开始,到商家向用户发布商品目录和优惠信息,整个流程分为五个步骤:
(1)客户发布微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。
(2)获取商家的粉丝。
(3)将用户的微博进行语义分析,基于 Hadoop 的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。
(4)指定相关营销策略,根据微博内容实时或定时更新客户肖像,向用户推送相应的商品折扣和新上架产品信息。
(5)消费者使用消费券或根据打折信息购买相关产品。
3 方案架构
整个系统架构,如图 2 所示,主要由文本分析系统、DB2 BLU 数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出送入 DB2 BLU 数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用 DB2 BLU 与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户。
如图3所示,为基于 Hadoop 平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户发布的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的 ID、性别、地点已经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用 JAQL 来拼接“原始标签”与分词后的标签,一起构成客户肖像表。
本文用于存储客户肖像的为 DB2 BLU Acceleration。BLU Acceleration 的架构如图4所示。
使用 DB2 BLU 具有的性能优势,采用列式存储,只对需要的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运
您可能关注的文档
- 基于Kinect的虚拟鼠标系统研究.doc
- 基于LabVIEW水温专家PID控制系统设计与实现.doc
- 基于Linux内核的文件系统监控研究.doc
- 基于Linux的ARM9嵌入式系统设计基础理论.doc
- 基于logistic回归模型的大数据精准营销应用.doc
- 基于LTE的本地传输网建设思路探索.doc
- 基于Matlab与Java集成的生态环境监测系统设计研究.doc
- 基于MATLAB的相机视野移动方向判断.doc
- 基于Maya的Polygon建模技术的应用.doc
- 基于Moodle平台作业管理中学习诊断的研究与设计.doc
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)