论文题目:基于Web 文本信息抽取的微博舆情分析
工程领域:计算机技术
硕 士 生:熊祖涛 (签名)
指导教师:龚尚福 (签名)
摘 要
据中国互联网络信息中心(CNNIC )发布的统计数据,截止到2012 年 12 月,中
国微博用户总量已达 3.09 亿。微博所具有的裂变式传播模式、多元化传播终端、低门
槛、高互动性等诸多优势,使其成为网络舆论的重要发源地。来自中国传媒大学网络舆
情( 口碑)研究所2011 年7 月发布的舆情指数显示,微博已成为仅次于新闻媒体报道的中
国第二大舆情源头,在舆论导向中正在扮演着越来越重要的角色。如何及时获取微博舆
情信息,了解舆情现状,预测舆情走势,从而因势利导、趋利除弊,已经成为舆情研究
的一个重要的新课题。
论文从这一背景出发,研究了利用 Web 信息抽取技术处理微博数据、进行舆情分
析的方法。首先针对微博文本的特点,利用Heritrix 主题网络爬虫采集微博页面,并以
镜像网页的形式进行存储。再结合 HTML 标签的嵌套特性,为采集到的网页构建起适
合访问的DOM 树结构。对于微博文本形式自由、语言不规范的情况,提出对文本中包
含的标点符号、表情符号、停用词、非登录词等利用人工标注和借助网络语料库处理相
结合的方式进行规范化处理的方法。在中文分词和词性标注阶段,将 NLPIR 汉语分词
和R 语言Rwordseg 分词两种方式进行了比较。考虑到微博文本内容短,聚类时易产生
数据稀疏问题,文中提出了采用 LDA 模型表示微博文本,对比了基于划分的聚类方法
和基于层次的聚类方法的优点与不足,提出了一种k-means 聚类与层次聚类相结合的算
法。在舆情分析阶段,采用基于2-POS 模型方法进行主客观文本分类,利用CRFs 方法
结合情感词自身规律和上下文信息等进行情感词标注。最后,借助于情感词典对微博话
题和评论观点进行了倾向性分析。
对于论文中采用的技术手段与方法,以国内具有代表性的新浪微博为例,进行了一
定的实验研究、数据对比和量化分析。初步的实验研究结果表明,文中采用的R 语言分
词、LDA 模型、k-means 与层次聚类相结合的短文本聚类、2-POS 模型、CRFs 等技术
和方法在微博数据的处理上相对于其他传统方法具有一定的优势,能够较好地实现对于
微博舆情数据的抽取、统计与分析。
关 键 词:微博;信息抽取;文本聚类;舆情分析
研究类型:应用研究
Subject : Analysis of Micro-blog Public Opinion based on Text
Information Extraction from Webpage
Engineering field : Computer Technology
Name : Xiong Zutao (Signature)
Instructor : Gong Shangfu (Signature)
ABSTRACT
According to statistics released by the China Internet Network Information Center
(CNNIC), the micro-blog users in China reached 309 million in total by the end of December
2012. The advantages of micro-blog including the mode of transmission of fission, diversified
communication terminal, lo
原创力文档

文档评论(0)