- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社交媒体数据挖掘
Thank you for listening! * 明德至诚·博学远志 数学与计算机科学学院 第 * 页 第 * 页 Klout?[2]设计了一种基于大数据挖掘的影响力分析算法,通过用户粉丝数、评论数、转发数等一系列指标评估一个用户影响力并进行打分。国外已有一些公司对客户进行Klout打分,根据Klout的分数进行不同的服务; Datasift?[3]是一个互联网规模的关键词过滤系统,能够过滤复杂的条件如地点、性别语言等,能够快速的评估热门关键词,同时,它也是一个实时的社交数据挖掘平台,能够对Twitter的实时数据进行各种类型的分析; PeerIndex是一个能够根据消费群体的社交网络活动对用户的社交影响力进行评价的数据分析平台 ? 微瑞思?创[4]一家专注社会化数据挖掘、致力于大数据应用的兴趣图谱舆情提供商,为大型企业商业营销提供服务,推出了多种社交媒体数据分析产品,例如特定人群分析、目标人群精确挖掘、品牌口碑实时监测、企业账号及同类竞争产品账号分析和运营活动实时监测等; 知微?[5]宏博知微依托于哈尔滨工业大学社交网络与数据挖掘联合实验室开发的一款社会化媒体数据挖掘产品,他能够进行微博传播分析,同时生成可视化传播路径、转发时间曲线、关键传播账号等; 北京大学也自主开发了一款微博可视分析工?具[6]通过直观的视图清晰地呈现出一个事件中微博转发的过程,能够使用户迅速地发现事件中的关键人物、关键微博、重要观点等,使用户更好的分析事件是如何发展。 第 * 页 平台概况 采用基于Hadoop架构搭建社交媒体分析平台,采集部分主要有网络爬虫和API采集两种,数据挖掘部分使用自主研发的社区发现算法和话题发现算法,该算法已经申请专利。 可视化展示主要对用户关系分析、微博传播分析、用户微博分析、话题分析,使用可视化技术进行效果展示 第 * 页 Hadoop得到了广泛的应用 第 * 页 本平台采用分层次的设计思想共分为了三个层次分别为:1、表现层:使用HTML5技术、HighChar等技术进行用户交互,可视化展示包括统计图表、社会网络拓扑结构、主题流程图等,2、应用层:平台的核心,基于分布式处理的MapReduce技术,实现数据采集、数据分析两大功能,模块间松散耦合,方便修改和添加新的数据源以及数据挖掘方法。5、数据存储层: MySQL:存储简单的业务管理数据信息 HBase:存储海量的社交媒体数据信息,包括大规模社交网络和海量内容信息。 第 * 页 1、网络爬虫是一个自动提取网页的程序 主要步骤有模拟账号登陆、获取抓取页面、页面解析、数据存储 2、Api采集是调用网站api, 1、通过微博账号注册成为开发者 2、创建应用 3、获得应用的key 进行身份验证:采集前通过Oauth协议根据上步获得的Token进行用户身份验证,需要点击同意授权,使用Chrome的chromedriver.exe无页面操作,调用相应的API接口,返回Json的数据,解析需要的数据,解析数据并保存到数据中。 第 * 页 设计一种基于Hadoop的采集方式,首先根据采集的种子集合使用Hadoop的调度机制进行调度,在Map阶段可以选择进行网络爬虫或者API两种方式进行数据的采集,存储,在Reduce阶段对数据进行简单的归并输出。 采集遇到的关键问题有两个爬虫采集的限制、API访问频率的限制,对于这两个问题我们通过注册多个微博账号,采集时随机选择一个账号进行间隔采集,对于API采集的注册多个微博应用,获得多个的Token,采集时随机选择一个Token进行采集,可以调用更多的API次数。 第 * 页 参考文献: [1] 陈羽中,方明月,郭文忠.面向微博热点话题发现的多标签传播聚类方法研究[J].模式识别与人工智能,2014:510. [2] 陈羽中,施松,陈国龙,等.基于节点层级与标签传播增益的重叠社区发现[J].模式识别与人工智能,535. ? 专利引用: [3] 一种社交网络中的多标签传播重叠社区发现方法,发明人:陈羽中,陈国龙,郭文忠,施松.申请号:201410034425.4, 申请日期:2014.01.24 [4] 一种微博热词与热点话题挖掘系统及方法,发明人:陈羽中,郭文忠,陈国龙,方明月. 申请号:201310725400.4,申请日期:2013.12.25 ? 第 * 页 第 * 页 用户网络采集结果包含社会网络用户信息以及用户之间的关系信息,其采集平台调用数据挖掘模块的社区发现算法[2][3]对用户群体进行划分,并结合力导引布局算法对用户关系网络拓扑结构图进行可视化展示结果按照采集任务进行划分 第 * 页 实验具体步骤为: (1)从采集到的数据中,遍历所有的转发微博,将微博的ID作为图的节点的ID,节点的标签为微博发布者的昵称,
文档评论(0)