微博挖掘—文本挖掘.ppt

下载文档 降价啦

3
0
约3.27千字
约 21页
2019-04-17 发布于江西
举报
版权申诉
保障服务

微博挖掘—文本挖掘.ppt

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

微博挖掘介绍;微博挖掘例子; 从中我们可以看出一些东西。比如说这部电影的口碑似乎还不错，此外某教授对其的炮轰也引发了不少得讨论。另外，同档期的另外两部电影（一代宗师，十二生肖）也经常和它同时出现; 微博对突发性事件的监测能力也不可小觑。微博在地震中的表现经常被用来讨论研究。2008年5月12日的汶川地震发生后，第一条关于地震消息的报道于震后7分钟出现在Twitter上，比彭博社的新闻快了22秒。2009年12月19日台湾花莲海域发生地震,台湾女孩萧姗姗于震后1分钟在新浪微博上发布了“地震！好强。”，成为全球描述这场地震的最早的文字。2011年3月17日日本东部海域地震后，微博成为传播地震消息的强大平台，媒体发布关于地震的微博专题，日本民众也通过微博向外界发布地震信息。有研究采用了2009年3月30日加利弗里亚摩根山4.3级地震发生后的微博信息名单，测验了用微博消息调查地震事件和快速描绘有震感区域图的可能性。因为公开的tweets都是保存在开放的可搜索的数据库里，用最基本的字符串如“earthquake”去匹配，可以在限定的日期范围里，由经度、纬度和半径定义的圆形地理区域内搜索。根据Twitter工程师介绍，tweet传输的延迟大约为5秒，通过一个简单的自动算法，摩根山地震可以在1分钟内被监测到。;微博的特点; 在微博时代，如果你有100个粉丝，就相当于办了一份时尚小报，可以在朋友圈子里享受被尊重、被阅读的乐趣；如果有1000个粉丝，相当于一份海报；如果有1万个粉丝，相当于创办了一家杂志；如果你有10万个粉丝，相当于创办了一份地方性报纸；当粉丝数增加到100万，你的声音会像全国性报纸上的头条新闻那样有影响力；如果有1000万个粉丝，你就像电视播音员一样，可以很容易地让全国人民听到自己的声音。——李开复 ;微博已经带来的商业价值;微博研究思路与方法;对微博信息挖掘，需要处理海量的用户信息和微博内容通过对微博信息的挖掘，可以获取相关的商业信息，人际关系信息，热点新闻，趋势信息等内容，以及对历史事件进行相关的分析总结。处理用户信息时可以挖出企业感兴趣的微博用户处理微博内容时进行文本挖掘可以得到有用信息;微博文本挖掘步骤： 1）文本挖掘信息的预处理：需要对文本信息进行统一个格式，因为不同格式，有些软件可能会不识别，如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。 2）文本挖掘描述：这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述，包括词频、词在文本的出现的概率等信息。 3）特征抽取并分类：特征化的目的就是将数据降维，并从文档中抽取能反映研究主题的一些特征后，使用分类器进行训练，分类设置包括很多方法，如聚类、关联、信息检索、链接分析等方法。 ; 分类模型是文本分类的核心技术总体来说对文本挖掘分类的模型包括两种：（1）基于规则的文本分类在规则文本分类的技术中，规则的设定很重要，这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括：（I）决策树decision tree，这种方法在文本挖掘中有很重要的地位，其得出的结果很容易理解，比较直观，分类准确性也能保证，只是在实际应用中的效率不是很高，这在实际的商业用途上受到了极大的限制。; （II）神经网络Neural Network,这种方法效率一般，最主要的是其内部的算法无从了解，这也是机器学习的一种，通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证，而且在相同情况下，神经网络的结果准确性方法一般优于其他方法。（III）支持向量机(Support Vector Machine)技术原理上是处理二次规划的全局最优解问题，但是他的计算速度通常比较慢，所以效率也不能保证，在准确性方面一般还算理想，但尤其当我们的样本量不是很大的情况下，得到的结果往往比较稳定。 ;（2）基于统计的文本分类这种文本挖掘的分类技术主要依据统计思想，来完成分类器的建立工作。常用的规则分类方法包括：（I）朴素贝叶斯Naive Bayes，现在朴素贝叶斯在文本挖掘的应用中较为广泛，其原理当然还是概率，基本是将词频作为概率值的估计，首先对于每一个样本中的元素计算先验概率，然后计算一个样本对于每个分类的概率，概率最大的分类则被接受。这种方法的应用性较强，综合评比性能良好。（II）K近邻方法K-nearest neighbor，这种方法的缺点挺多，因为需要将新纳入的文本与已有的文本一一比较所以计算量很大，自然也就很慢，而且在要对比的样本中如果两两样本相差太大，也容易导致结果的不稳定。 ;对微博内容语义分析，根据关键词进行提取，确定产品用户：　　比如公司是卖母婴类产