- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 30卷第 9期
2013年 9月
计算机应用与软件
ComputrApplcatonsandSofwar
Vol30 No.9
Sep.2013
一种基于改进的博客观点检索算法研究
王富荣1 张 宏2
1
2
摘 要 近年来博客逐渐成为一种新的主流媒体及网络形式,已成为人们获取信息的重要渠道。通过分析博客的相关功能,提出
一种基于博客的观点检索方法,并且设计了一种基于负规则的极性检测算法,以提高极性检测部分的性能。通过相关实验数据验
证,结果证明了提出的方法的有效性,该改进算法能够显著提高系统的 MAP值。
关键词 观点检索 博客 文本极性 负规则 数学模型
中图分类号 TP301 文献标识码 A DOI10.3969/.is.100086x.2013.09.037
STUDY ON AN I PROVED VIWPOI TRETRIVALALGORIHM
BASED ON BLOG
WangFurng ZhangHong
1
2
Absract I rcentyear,blgshavegrdualybecomeanewfr ofmaisram medi andnetors aswelasbecomeaniporant
channelofaccesigt ifraton.Byanalsngterltvefatrsofteblg weprpos ablgasdviwpoitrtivalmetod,and
desgnanegatverlasdpolrt detctonalortm friprvigteperoranceoftepolrt detctonpar oftemetod.The
metodprposdi tepaperhasbeenverfedtrughcoreltdexpermentldat,andterslsprvetevaldiyofi;ti iprved
alortm canrmarabl rieteMAPvalesoftessem.
Keywords Viwpoitrtival Blg Textpolrt Negatverls Matematcalmodel
0 引 言
长期以来,人们经常需要求助于调查机构来了解有关人 群
对于某些问题的观 点,有 可 能 是 积 极 的、消 极 的 或 混 合 的。这
些公司的雇员需要仔细阅读所有有关问题的文本,然后进 行分
析 [1],不 仅 耗 费 大 量 的 人 力 和 财 政 资 源,而 且 过 程 也 很 缓 慢。
正由于这些缺陷的存在,才促进了观点检索系统的产生与发展。
随着 Web2.0时代的到来,网络已成为响应社会舆论的重
要载体 [2]。越来越多人 通 过 博 客 来 对 热 点 问 题 发 表 观 点。因
此,本文将观点检索系统应用到博客这个新兴领域。它对于众
多商业产品,关键分析领域等等的决策均具有广泛的应用前景
和现实意义。本文基于博客文章,通过设定相关目标,提取并标
识观点方向(积极、消极或混合)。通 过 实 例 进 行 验 证,实 验 结
果显示本文提出的方法获得良好的效果。
1 观点检索系统架构分析
图 1 典型观点检索系统架构
主题检索部分,需要在博客文章中定位包含给定的主题 目
标的相关信息 [4]。它 是 基 于 Lucene.Net检 索 工 具 包 来 实 现 相
关博客内容的检索,并返回文档相关的分数,然后根据分数划分
一个典型的观点检索系统主要由主题检索部分、观点检 索
部分和极性检测部 分 等 三 部 分 构 成。系 统 的 体 系 结 构 如 图 1
所示 [3]。
收稿日期:2012-08-12。江苏省交通科学研究计划项目(2011Y21
-3)。王富荣,副教授,主研领域:计算机应用,信息安全。张宏,教授。
32
计算机应用与软件
2013年
不同等级。其中应用到简单查询扩展技术以优化检索效率(在
这里不做详细信息检索)。
观点检索部分,需要在博客文章中定位对给定的目标形 成
的观点。它使用主题检索部分得到的分数进行进一步分析,然
后使用线性组合模型得到最终版本的相关性分数,在后文中将
进行详细分析 [5]。
极性检测部分,需要提取并标识观点方 向 (积 极、消 极 或 混
合)。本文提出了一种基于负规则的极性算法,后文将详细讨论。
2 基于博客的观点检索模型
一般来说,博客 包 含 三 个 部 分,即 标 题、内 容、评 论。因 为
三个部分的文本表达、语言和习惯都是不同的,所以每个部分观
点分数的计算方法也不同 [6]。同时,每个部分的消息内容是不
同的,因此,博客内不同内容对观点分数的贡献也不同。综合考
虑上述因素,使用不同的方法为博客的标题、
原创力文档


文档评论(0)