- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE11
PAGE11
微博热点话题的文本特征研究的相关理论与技术综述
目录
TOC\o1-2\h\u11590微博热点话题的文本特征研究的相关理论与技术综述 1
94251.1热点话题发现相关概述 1
28341.2文本预处理 2
231271.1.1中文分词 2
277401.1.2文本去停用词 3
258511.3文本表示 4
93471.3.1基于向量空间模型的文本表示 4
24151.3.2基于主题模型的文本表示 5
207521.3.3基于词嵌入模型的文本表示 5
133581.4文本特征选择及相似度计算 8
177331.4.1文本特征选择 8
269701.4.2文本相似度计算 9
89571.5传统聚类方法 10
16543(1)基于划分的聚类算法 11
4999(2)基于层次的聚类算法 11
13596(3)基于密度的聚类算法 12
26725(4)基于图论的聚类算法 12
4512(5)基于网格的聚类算法 12
27424(6)基于模型的聚类算法 13
173381.6频繁词集相关概述 13
73061.6.1频繁词集相关理论 13
298111.6.2频繁词集挖掘算法 14
1.1热点话题发现相关概述
话题检测与跟踪技术(TopicDetectionandTracking,TDT)最早由美国国防部高级研究计划署等提出,TDT作为一种信息处理技术,其主要任务是对文字形态的新闻媒体信息流进行分割,自动检测出不同的新闻事件,在提取出新话题的同时,将以某种合适的方式将检测出的话题呈现给用户。
话题检测任务作为TDT的主要任务之一,其目的是识别出系统预先未知的新兴话题并对话题进行展示。在该类任务中,首先对预处理后的文本进行建模,转化成计算机能够处理的表示形式,而后采用合适的聚类算法对文本进行聚类,以获得不同的聚类簇,同时达到簇内内容紧密相关,簇间内容明显分离的效果,并且每个聚类簇表达一个独立的话题[30]。目前,话题检测技术被越来越多的应用于微博、论坛等社交网络平台中,是网络舆情的重要研究方向之一。微博热点话题发现作为微博舆情研究中的重要环节,也是在话题检测任务的基础上进行的。对于发现的话题结果,以某种合适的方式对话题进行热度评估分析,从而得出热点话题作为微博舆情的重要参考。综上所述,微博热点话题发现的一般流程如图2-1所示。
图2-1微博热点话题发现流程图
Fig.2-1Flowchartofhottopicdiscoveryonweibo
微博热点话题发现的流程首先是微博数据的采集,主要是利用爬虫等方法从新浪微博上爬取微博数据,并对数据进行整理与存储;为了得到规范的数据集,随后进行数据预处理,包括中文分词及去停用词;接着进行文本特征提取,以方便后续聚类研究;之后通过构建文本表示模型对处理好的微博数据集进行文本表示,利用聚类算法对微博文本聚类形成话题簇,最后通过热点话题评估方法得到最终所研究的热点话题。
1.2文本预处理
1.1.1中文分词
句子中文分词是数据预处理中非常重要的一个环节,中文句子不同于英文句子以单词之间的空格作为自然分隔符,仅仅根据空格或标点符号就能对英文句子进行切分。在中文等自然语言中,词与词之间紧密相连没有类似空格的区分标志,因此,中文分词要比英文分词复杂很多,需要用中文分词技术将中文句子分割成若干个有意义的词汇,例如“推动线上消费规范健康发展”的分词结果为:“推动/线上/消费/规范/健康/发展”。目前主流的中文分词方法主要包括:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法[31]三大类。
(1)基于字符串匹配的分词方法又叫字典匹配法,该方法需要借助外部的中文词库作为匹配的词典,按照一定的策略将待分词的文本与词典中的词语一一进行检查,将检查结果相同的字符串划分为一个词。这种分词方法中,词典的质量将会直接影响到分词结果。
(2)基于统计的分词方法不用预设好分词词典,而是计算相邻字符在语料中的共同出现频率,并由此来判断该字符串是否为一个词语,如果相邻字符在语料中同时出现的概率越大,则表明它们组合为一个词的可能性也就越大。该方法用到的典型模型有n元语法模型、条件随机场模型和隐马尔可夫模型等。
(3)基于理解的分词方法基本思想是通过储备大量的人类语言知识,让计算机在充分学习到句子的语法语义信息,模拟人类在正常交流中对句子的理解,来实现计算机自动中文分词。由于汉语复杂又难懂,具有一定的语言特殊性,因此基于理解的分词方法目前还处在研究实验阶段。
随着我国对中文分词
您可能关注的文档
- 《 智能立体停车场的智能控制系统硬件设计案例综述》3500字.docx
- 《“瑞宁得”产品营销策略研究的国内外文献综述》1800字.docx
- 《220KV继电保护的电气设备选择及校验案例综述》2100字.docx
- 《220KV继电保护的短路电流计算案例综述》2200字.docx
- 《ST公司资产重组的财务效应研究文献综述3900字》.doc
- 《S餐饮中心房屋的施工图以及结构抗震设计》17000字.docx
- 《S城市污水处理厂生产工艺系统建设方案分析论文22000字》.doc
- 《S城市污水处理工艺相关计算案例16000字论文》.doc
- 《S村镇银行信贷风险管理研究的国内外文献综述》7000字.docx
- 《S大学综合实验楼的建筑结构的设计计算》21000字.docx
- 《污水处理厂工艺设计中的设备选择与优化研究10000字论文》.doc
- 《五档手动变速箱设计》12000字.docx
- 《物业管理企业商业模式系统分析综述》2400字.docx
- 《雅戈尔公司信息化战略优化研究(任务书+开题报告)3100字》.docx
- 《雅戈尔公司研发人员绩效管理问题的问卷调查分析报告7700字》.doc
- 《洋河股份公司基于财务评价主体视角的成长性评价研究16000字》.docx
- 《养元饮品实业公司招聘中存在的主要问题及完善对策研究(附问卷)12000字》.doc
- 《药学服务实践中的难点与应对措施3800字论文》.doc
- 《液压挖掘机行走机构的设计案例综述》4300字.docx
- 《一款全自动蛋液分离设备的结构计算设计》13000字.docx
文档评论(0)