针对搜索引擎的媒体倾向性研究.pdfVIP

  • 4
  • 0
  • 约1.01万字
  • 约 5页
  • 2017-08-17 发布于安徽
  • 举报
第32卷第2期 江西师范大学学报(自然科学版) vd.32No.2 OFJIANGXINOR.Kh,LUNⅣE】}tS啊Y(NAIURALsC匝NCE) 2008年4月 JOURNAL Allr.20嘴 文章编号:1000-5862(2008)02-0127-05 针对搜索引擎的媒体倾向性研究 李智超, 马少平 (智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),清华大学计算机系,北京100084) 摘要:针对某一类产品的文本倾向性分析成为了现在研究的热点.该文以搜索引擎的媒体报道为出发 点,使用已有的情感词典集合,以及通过信息熵的方法从训练集合中提取特征词,采用贝叶斯分类方法对 文本进行倾向性分析,将媒体新闻分为正面报道、负面报道和无倾向性3类,得到了比较理想的正确率. 关键词:搜索引擎;倾向性分析;情感词典;信息熵 中图分类号:TP391.4 文献标识码:A O引言 近年来,互联网的发展,使得网络已经成为了人们生活中重要的信息来源,也是人们表达个人意向的重 要途径.作为电子商务的重要载体,互联网上的内容对商家和用户都存在导向作用.通过对网络文本的倾向 性挖掘,一方面用户可以了解其他人对某种商品的评价,另一方面商家也可以及时了解市场行情,完善商品 的质量和营销手段. . 倾向性一般指文本对一件事物表达的观点、立场以及态度等,可以分为正面、中性和负面三种倾向.一 般用户对于商品的评价多出现在论坛、博客上,而在信息传递过程中,媒体的作用也不可小视,互联网上 77.3%的人都在浏览新闻…1,媒体针对商品所发表的看法往往对大众也有着直接的影响.媒体经常报道产品 或公司的正面新闻和经常报道负面新闻,对用户的倾向会产生不同方向的引导。所以掌握媒体倾向性的发 布和传播对商家预测产品走势也有一定的指导意义. 本文以“搜索引擎”为出发点,分析媒体在对包括百度、谷歌、搜狗、雅虎等各大搜索引擎的报道所持有 的倾向性.第l节介绍倾向性分析的相关工作,第2节介绍数据集合,倾向性分析的具体方法将在第3节中 介绍,第4节给出实验结果,第5节进行总结和展望未来工作. 1相关工作 目前进行文本倾向性分析的主要方法有基于机器学习的方法和基于词典的方法.B.Pang[2]使用支持向 量机、朴素贝叶斯和最大熵的办法对电影评论文档进行了情感分析,得到了82.9%的准确率.2004年他们有 to[4]又使用了句法信息进行辅助分析.‘ ‰[8】还提出了一种判断未知词语感情倾向的方法. 收稿日期:2007-12-01 (2006从012141)资助项目. 作者简介:李智超(1985一),男,河北省迁安市人,博士生,主要从事信息检索研究. 江西师范大学学报(自然科学版) 2008年 本文中结合使用基于机器学习的方法和基于词典的方法来进行文本倾向性分析.2 数据集合 从互联网上抓取了2007年1月到2007年11月的关于各大搜索引擎的 新闻网页,共计22565个页面,来自l259个站点,其中大部分来源于sina、80. hu、163等门户网站的信息技术频道. 从中随机抽取了441个页面进行了人工标记,以作为训练数据.正面新 闻标记为1,例如报道搜索引擎性能提升、新产品发布等内容;负面新闻标记 为一1,例如报道搜索引擎公司作弊、打官司等内容;没有倾向性的标记为0. 经过人工标记,三类页面的比例如图1. 3倾向性分析 图1三类页面比例图 3.1特征选择 对文本进行预处理,去掉标签之后,使用前向最大方法进行分词,从中选择能够区分倾向性词语作为特 征.选择特征时,从两个方面着手,第一使用情感词典集合进行匹配,第二通过训练集合中的文本提取. 词语、“正面评价”词语、“负面评价”词语、“程度级别”词语和“主张”词语.本文中使用了Hownet提供的这些 词典,将“正面

文档评论(0)

1亿VIP精品文档

相关文档