- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微博挖掘介绍;微博挖掘例子; 从中我们可以看出一些东西。比如说这部电影的口碑似乎还不错,此外某教授对其的炮轰也引发了不少得讨论。另外,同档期的另外两部电影(一代宗师,十二生肖)也经常和它同时出现; 微博对突发性事件的监测能力也不可小觑。微博在地震中的表现经常被用来讨论研究。2008年5月12日的汶川地震发生后,第一条关于地震消息的报道于震后7分钟出现在Twitter上,比彭博社的新闻快了22秒。2009年12月19日台湾花莲海域发生地震,台湾女孩萧姗姗于震后1分钟在新浪微博上发布了“地震!好强。”,成为全球描述这场地震的最早的文字。2011年3月17日日本东部海域地震后,微博成为传播地震消息的强大平台,媒体发布关于地震的微博专题,日本民众也通过微博向外界发布地震信息。有研究采用了2009年3月30日加利弗里亚摩根山4.3级地震发生后的微博信息名单,测验了用微博消息调查地震事件和快速描绘有震感区域图的可能性。因为公开的tweets都是保存在开放的可搜索的数据库里,用最基本的字符串如“earthquake”去匹配,可以在限定的日期范围里,由经度、纬度和半径定义的圆形地理区域内搜索。根据Twitter工程师介绍,tweet传输的延迟大约为5秒,通过一个简单的自动算法,摩根山地震可以在1分钟内被监测到。;微博的特点; 在微博时代,如果你有100个粉丝,就相当于办了一份时尚小报,可以在朋友圈子里享受被尊重、被阅读的乐趣;如果有1000个粉丝,相当于一份海报;如果有1万个粉丝,相当于创办了一家杂志;如果你有10万个粉丝,相当于创办了一份地方性报纸;当粉丝数增加到100万,你的声音会像全国性报纸上的头条新闻那样有影响力;如果有1000万个粉丝,你就像电视播音员一样,可以很容易地让全国人民听到自己的声音。——李开复
;微博已经带来的商业价值;微博研究思路与方法;对微博信息挖掘,需要处理海量的用户信息和微博内容
通过对微博信息的挖掘,可以获取相关的商业信息,人际关系信息,热点新闻,趋势信息等内容,以及对历史事件进行相关的分析总结。
处理用户信息时可以挖出企业感兴趣的微博用户
处理微博内容时进行文本挖掘可以得到有用信息;微博文本挖掘
步骤:
1)文本挖掘信息的预处理:需要对文本信息进行统一个格式,因为不同格式,有些软件可能会不识别,如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。
2)文本挖掘描述:这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述,包括词频、词在文本的出现的概率等信息。
3) 特征抽取并分类:特征化的目的就是将数据降维,并从文档中抽取能反映研究主题的一些特征后,使用分类器进行训练,分类设置包括很多方法,如聚类、关联、信息检索、链接分析等方法。
; 分类模型是文本分类的核心技术
总体来说对文本挖掘分类的模型包括两种:
(1)基于规则的文本分类
在规则文本分类的技术中,规则的设定很重要,这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括:
(I)决策树decision tree,这种方法在文本挖掘中有很重要的地位,其得出的结果很容易理解,比较直观,分类准确性也能保证,只是在实际应用中的效率不是很高,这在实际的商业用途上受到了极大的限制。; (II)神经网络Neural Network,这种方法效率一般,最主要的是其内部的算法无从了解,这也是机器学习的一种,通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证,而且在相同情况下,神经网络的结果准确性方法一般优于其他方法。
(III)支持向量机(Support Vector Machine)技术原理上是处理二次规划的全局最优解问题,但是他的计算速度通常比较慢,所以效率也不能保证,在准确性方面一般还算理想,但尤其当我们的样本量不是很大的情况下,得到的结果往往比较稳定。
;(2)基于统计的文本分类
这种文本挖掘的分类技术主要依据统计思想,来完成分类器的建立工作。
常用的规则分类方法包括:
(I)朴素贝叶斯Naive Bayes,现在朴素贝叶斯在文本挖掘的应用中较为广泛,其原理当然还是概率,基本是将词频作为概率值的估计,首先对于每一个样本中的元素计算先验概率,然后计算一个样本对于每个分类的概率,概率最大的分类则被接受。这种方法的应用性较强,综合评比性能良好。
(II)K近邻方法K-nearest neighbor,这种方法的缺点挺多,因为需要将新纳入的文本与已有的文本一一比较所以计算量很大,自然也就很慢,而且在要对比的样本中如果两两样本相差太大,也容易导致结果的不稳定。
;对微博内容语义分析,根据关键词进行提取,确定产品用户:
比如公司是卖母婴类产
您可能关注的文档
- 晚期癌症疼痛的护理综述.doc
- 万年历设计报告.doc
- 万元家电零拍卖会活动方案.ppt
- 汪家寨洗煤厂环保事故应急预案.doc
- 王国维到陈建功—中国数学教育研究50年之回顾与反思代钦.doc
- 王宏建《艺术概论》考研核心笔记2.doc
- 王陆鸣---《营业厅转型管理与销量提升培训与现场辅导》.doc
- 王文明中学规范办学行为专项督查自查报告.doc
- 网购环境下消费者权益保护的分析与对策毕业论文.doc
- 网光缆线路工程项目施工组织方案.doc
- 《GB/Z 44363-2024致热性 医疗器械热原试验的原理和方法》.pdf
- GB/T 16716.6-2024包装与环境 第6部分:有机循环.pdf
- 中国国家标准 GB/T 44376.1-2024微细气泡技术 水处理应用 第1 部分:亚甲基蓝脱色法评价臭氧微细气泡水发生系统.pdf
- 《GB/T 44376.1-2024微细气泡技术 水处理应用 第1 部分:亚甲基蓝脱色法评价臭氧微细气泡水发生系统》.pdf
- GB/T 44376.1-2024微细气泡技术 水处理应用 第1 部分:亚甲基蓝脱色法评价臭氧微细气泡水发生系统.pdf
- 中国国家标准 GB/T 44315-2024科技馆展品设计通用要求.pdf
- GB/T 44305.2-2024塑料 增塑聚氯乙烯(PVC-P)模塑和挤塑材料 第2部分:试样制备和性能测定.pdf
- 《GB/T 44315-2024科技馆展品设计通用要求》.pdf
- GB/T 44315-2024科技馆展品设计通用要求.pdf
- GB/T 39560.9-2024电子电气产品中某些物质的测定 第9 部分:气相色谱-质谱法(GC-MS)测定聚合物中的六溴环十二烷.pdf
最近下载
- 黑布林阅读名著Little Women小妇人学案 及阅读理解训练(含答案).docx
- 校园道路、污水管网、雨水管网、生活供水、供电、路灯、消防供水管网施工组织设计160页.pdf
- 故事《拔萝卜》课件.ppt
- 陆上石油天然气停产井安全风险防控指南.pdf
- 中央空调调试方案(修改)精编.doc
- 2023-2024学年湘教版七年级上册地理全册导学案.pdf VIP
- 初中英语人教版新教材七年级上册 Starter Unit 1 Hello!单元知识点(2024秋).doc
- 2024第六届(2024年)“信用电力”知识竞赛活动总试题库-下(多选、判断题汇总).docx
- 骨科疾病的医疗质量与安全管理.pptx
- 妇产科教学总结.pptx
文档评论(0)