微博挖掘—文本挖掘.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微博挖掘介绍;微博挖掘例子; 从中我们可以看出一些东西。比如说这部电影的口碑似乎还不错,此外某教授对其的炮轰也引发了不少得讨论。另外,同档期的另外两部电影(一代宗师,十二生肖)也经常和它同时出现; 微博对突发性事件的监测能力也不可小觑。微博在地震中的表现经常被用来讨论研究。2008年5月12日的汶川地震发生后,第一条关于地震消息的报道于震后7分钟出现在Twitter上,比彭博社的新闻快了22秒。2009年12月19日台湾花莲海域发生地震,台湾女孩萧姗姗于震后1分钟在新浪微博上发布了“地震!好强。”,成为全球描述这场地震的最早的文字。2011年3月17日日本东部海域地震后,微博成为传播地震消息的强大平台,媒体发布关于地震的微博专题,日本民众也通过微博向外界发布地震信息。有研究采用了2009年3月30日加利弗里亚摩根山4.3级地震发生后的微博信息名单,测验了用微博消息调查地震事件和快速描绘有震感区域图的可能性。因为公开的tweets都是保存在开放的可搜索的数据库里,用最基本的字符串如“earthquake”去匹配,可以在限定的日期范围里,由经度、纬度和半径定义的圆形地理区域内搜索。根据Twitter工程师介绍,tweet传输的延迟大约为5秒,通过一个简单的自动算法,摩根山地震可以在1分钟内被监测到。;微博的特点; 在微博时代,如果你有100个粉丝,就相当于办了一份时尚小报,可以在朋友圈子里享受被尊重、被阅读的乐趣;如果有1000个粉丝,相当于一份海报;如果有1万个粉丝,相当于创办了一家杂志;如果你有10万个粉丝,相当于创办了一份地方性报纸;当粉丝数增加到100万,你的声音会像全国性报纸上的头条新闻那样有影响力;如果有1000万个粉丝,你就像电视播音员一样,可以很容易地让全国人民听到自己的声音。——李开复 ;微博已经带来的商业价值;微博研究思路与方法;对微博信息挖掘,需要处理海量的用户信息和微博内容 通过对微博信息的挖掘,可以获取相关的商业信息,人际关系信息,热点新闻,趋势信息等内容,以及对历史事件进行相关的分析总结。 处理用户信息时可以挖出企业感兴趣的微博用户 处理微博内容时进行文本挖掘可以得到有用信息;微博文本挖掘 步骤: 1)文本挖掘信息的预处理:需要对文本信息进行统一个格式,因为不同格式,有些软件可能会不识别,如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。 2)文本挖掘描述:这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述,包括词频、词在文本的出现的概率等信息。 3) 特征抽取并分类:特征化的目的就是将数据降维,并从文档中抽取能反映研究主题的一些特征后,使用分类器进行训练,分类设置包括很多方法,如聚类、关联、信息检索、链接分析等方法。 ; 分类模型是文本分类的核心技术 总体来说对文本挖掘分类的模型包括两种: (1)基于规则的文本分类 在规则文本分类的技术中,规则的设定很重要,这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括: (I)决策树decision tree,这种方法在文本挖掘中有很重要的地位,其得出的结果很容易理解,比较直观,分类准确性也能保证,只是在实际应用中的效率不是很高,这在实际的商业用途上受到了极大的限制。; (II)神经网络Neural Network,这种方法效率一般,最主要的是其内部的算法无从了解,这也是机器学习的一种,通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证,而且在相同情况下,神经网络的结果准确性方法一般优于其他方法。 (III)支持向量机(Support Vector Machine)技术原理上是处理二次规划的全局最优解问题,但是他的计算速度通常比较慢,所以效率也不能保证,在准确性方面一般还算理想,但尤其当我们的样本量不是很大的情况下,得到的结果往往比较稳定。 ;(2)基于统计的文本分类 这种文本挖掘的分类技术主要依据统计思想,来完成分类器的建立工作。 常用的规则分类方法包括: (I)朴素贝叶斯Naive Bayes,现在朴素贝叶斯在文本挖掘的应用中较为广泛,其原理当然还是概率,基本是将词频作为概率值的估计,首先对于每一个样本中的元素计算先验概率,然后计算一个样本对于每个分类的概率,概率最大的分类则被接受。这种方法的应用性较强,综合评比性能良好。 (II)K近邻方法K-nearest neighbor,这种方法的缺点挺多,因为需要将新纳入的文本与已有的文本一一比较所以计算量很大,自然也就很慢,而且在要对比的样本中如果两两样本相差太大,也容易导致结果的不稳定。 ;对微博内容语义分析,根据关键词进行提取,确定产品用户:    比如公司是卖母婴类产

您可能关注的文档

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档