关于Web文本信息抽取微博舆情分析.pdf

下载文档

2
0
约8.61万字
约 55页
2018-12-08 发布于江苏
举报
保障服务

关于Web文本信息抽取微博舆情分析.pdf

论文题目：基于Web 文本信息抽取的微博舆情分析工程领域：计算机技术硕士生：熊祖涛 (签名) 指导教师：龚尚福 (签名) 摘要据中国互联网络信息中心（CNNIC ）发布的统计数据，截止到2012 年 12 月，中国微博用户总量已达 3.09 亿。微博所具有的裂变式传播模式、多元化传播终端、低门槛、高互动性等诸多优势，使其成为网络舆论的重要发源地。来自中国传媒大学网络舆情( 口碑)研究所2011 年7 月发布的舆情指数显示，微博已成为仅次于新闻媒体报道的中国第二大舆情源头，在舆论导向中正在扮演着越来越重要的角色。如何及时获取微博舆情信息，了解舆情现状，预测舆情走势，从而因势利导、趋利除弊，已经成为舆情研究的一个重要的新课题。论文从这一背景出发，研究了利用 Web 信息抽取技术处理微博数据、进行舆情分析的方法。首先针对微博文本的特点，利用Heritrix 主题网络爬虫采集微博页面，并以镜像网页的形式进行存储。再结合 HTML 标签的嵌套特性，为采集到的网页构建起适合访问的DOM 树结构。对于微博文本形式自由、语言不规范的情况，提出对文本中包含的标点符号、表情符号、停用词、非登录词等利用人工标注和借助网络语料库处理相结合的方式进行规范化处理的方法。在中文分词和词性标注阶段，将 NLPIR 汉语分词和R 语言Rwordseg 分词两种方式进行了比较。考虑到微博文本内容短，聚类时易产生数据稀疏问题，文中提出了采用 LDA 模型表示微博文本，对比了基于划分的聚类方法和基于层次的聚类方法的优点与不足，提出了一种k-means 聚类与层次聚类相结合的算法。在舆情分析阶段，采用基于2-POS 模型方法进行主客观文本分类，利用CRFs 方法结合情感词自身规律和上下文信息等进行情感词标注。最后，借助于情感词典对微博话题和评论观点进行了倾向性分析。对于论文中采用的技术手段与方法，以国内具有代表性的新浪微博为例，进行了一定的实验研究、数据对比和量化分析。初步的实验研究结果表明，文中采用的R 语言分词、LDA 模型、k-means 与层次聚类相结合的短文本聚类、2-POS 模型、CRFs 等技术和方法在微博数据的处理上相对于其他传统方法具有一定的优势，能够较好地实现对于微博舆情数据的抽取、统计与分析。关键词：微博；信息抽取；文本聚类；舆情分析研究类型：应用研究 Subject : Analysis of Micro-blog Public Opinion based on Text Information Extraction from Webpage Engineering field : Computer Technology Name : Xiong Zutao (Signature) Instructor : Gong Shangfu (Signature) ABSTRACT According to statistics released by the China Internet Network Information Center (CNNIC), the micro-blog users in China reached 309 million in total by the end of December 2012. The advantages of micro-blog including the mode of transmission of fission, diversified communication terminal, lo

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

关于Web文本信息抽取微博舆情分析.pdf