《微博热点话题的文本特征研究的相关理论与技术综述》9100字.docxVIP

下载本文档

3
0
约1.18万字
约 16页
2025-02-28 发布于湖北
举报
版权申诉

《微博热点话题的文本特征研究的相关理论与技术综述》9100字.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE11

微博热点话题的文本特征研究的相关理论与技术综述

TOC\o1-2\h\u11590微博热点话题的文本特征研究的相关理论与技术综述 1

94251.1热点话题发现相关概述 1

28341.2文本预处理 2

231271.1.1中文分词 2

277401.1.2文本去停用词 3

258511.3文本表示 4

93471.3.1基于向量空间模型的文本表示 4

24151.3.2基于主题模型的文本表示 5

207521.3.3基于词嵌入模型的文本表示 5

133581.4文本特征选择及相似度计算 8

177331.4.1文本特征选择 8

269701.4.2文本相似度计算 9

89571.5传统聚类方法 10

16543（1）基于划分的聚类算法 11

4999（2）基于层次的聚类算法 11

13596（3）基于密度的聚类算法 12

26725（4）基于图论的聚类算法 12

4512（5）基于网格的聚类算法 12

27424（6）基于模型的聚类算法 13

173381.6频繁词集相关概述 13

73061.6.1频繁词集相关理论 13

298111.6.2频繁词集挖掘算法 14

1.1热点话题发现相关概述

话题检测与跟踪技术(TopicDetectionandTracking，TDT)最早由美国国防部高级研究计划署等提出，TDT作为一种信息处理技术，其主要任务是对文字形态的新闻媒体信息流进行分割，自动检测出不同的新闻事件，在提取出新话题的同时，将以某种合适的方式将检测出的话题呈现给用户。

话题检测任务作为TDT的主要任务之一，其目的是识别出系统预先未知的新兴话题并对话题进行展示。在该类任务中，首先对预处理后的文本进行建模，转化成计算机能够处理的表示形式，而后采用合适的聚类算法对文本进行聚类，以获得不同的聚类簇，同时达到簇内内容紧密相关，簇间内容明显分离的效果，并且每个聚类簇表达一个独立的话题[30]。目前，话题检测技术被越来越多的应用于微博、论坛等社交网络平台中，是网络舆情的重要研究方向之一。微博热点话题发现作为微博舆情研究中的重要环节，也是在话题检测任务的基础上进行的。对于发现的话题结果，以某种合适的方式对话题进行热度评估分析，从而得出热点话题作为微博舆情的重要参考。综上所述，微博热点话题发现的一般流程如图2-1所示。

图2-1微博热点话题发现流程图

Fig.2-1Flowchartofhottopicdiscoveryonweibo

微博热点话题发现的流程首先是微博数据的采集，主要是利用爬虫等方法从新浪微博上爬取微博数据，并对数据进行整理与存储；为了得到规范的数据集，随后进行数据预处理，包括中文分词及去停用词；接着进行文本特征提取，以方便后续聚类研究；之后通过构建文本表示模型对处理好的微博数据集进行文本表示，利用聚类算法对微博文本聚类形成话题簇，最后通过热点话题评估方法得到最终所研究的热点话题。

1.2文本预处理

1.1.1中文分词

句子中文分词是数据预处理中非常重要的一个环节，中文句子不同于英文句子以单词之间的空格作为自然分隔符，仅仅根据空格或标点符号就能对英文句子进行切分。在中文等自然语言中，词与词之间紧密相连没有类似空格的区分标志，因此，中文分词要比英文分词复杂很多，需要用中文分词技术将中文句子分割成若干个有意义的词汇，例如“推动线上消费规范健康发展”的分词结果为：“推动/线上/消费/规范/健康/发展”。目前主流的中文分词方法主要包括：基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法[31]三大类。

（1）基于字符串匹配的分词方法又叫字典匹配法，该方法需要借助外部的中文词库作为匹配的词典，按照一定的策略将待分词的文本与词典中的词语一一进行检查，将检查结果相同的字符串划分为一个词。这种分词方法中，词典的质量将会直接影响到分词结果。

（2）基于统计的分词方法不用预设好分词词典，而是计算相邻字符在语料中的共同出现频率，并由此来判断该字符串是否为一个词语，如果相邻字符在语料中同时出现的概率越大，则表明它们组合为一个词的可能性也就越大。该方法用到的典型模型有n元语法模型、条件随机场模型和隐马尔可夫模型等。

（3）基于理解的分词方法基本思想是通过储备大量的人类语言知识，让计算机在充分学习到句子的语法语义信息，模拟人类在正常交流中对句子的理解，来实现计算机自动中文分词。由于汉语复杂又难懂，具有一定的语言特殊性，因此基于理解的分词方法目前还处在研究实验阶段。

随着我国对中文分词

您可能关注的文档

文档评论（0）

02127123006 + 关注: 实名认证

文档贡献者

关注原创力文档

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《微博热点话题的文本特征研究的相关理论与技术综述》9100字.docxVIP