一种基于改进的博客观点检索算法研究.docVIP

一种基于改进的博客观点检索算法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 30卷第 9期    2013年 9月    计算机应用与软件 ComputrApplcatonsandSofwar  Vol30 No.9 Sep.2013 一种基于改进的博客观点检索算法研究 王富荣1 张 宏2 1 2 摘 要  近年来博客逐渐成为一种新的主流媒体及网络形式,已成为人们获取信息的重要渠道。通过分析博客的相关功能,提出 一种基于博客的观点检索方法,并且设计了一种基于负规则的极性检测算法,以提高极性检测部分的性能。通过相关实验数据验 证,结果证明了提出的方法的有效性,该改进算法能够显著提高系统的 MAP值。 关键词  观点检索 博客 文本极性 负规则 数学模型 中图分类号 TP301    文献标识码 A    DOI10.3969/.is.100086x.2013.09.037 STUDY ON AN I PROVED VIWPOI TRETRIVALALGORIHM BASED ON BLOG WangFurng ZhangHong 1 2 Absract  I rcentyear,blgshavegrdualybecomeanewfr ofmaisram medi andnetors aswelasbecomeaniporant channelofaccesigt ifraton.Byanalsngterltvefatrsofteblg weprpos ablgasdviwpoitrtivalmetod,and desgnanegatverlasdpolrt detctonalortm friprvigteperoranceoftepolrt detctonpar oftemetod.The metodprposdi tepaperhasbeenverfedtrughcoreltdexpermentldat,andterslsprvetevaldiyofi;ti iprved alortm canrmarabl rieteMAPvalesoftessem. Keywords  Viwpoitrtival Blg Textpolrt Negatverls Matematcalmodel 0 引 言 长期以来,人们经常需要求助于调查机构来了解有关人 群 对于某些问题的观 点,有 可 能 是 积 极 的、消 极 的 或 混 合 的。这 些公司的雇员需要仔细阅读所有有关问题的文本,然后进 行分 析 [1],不 仅 耗 费 大 量 的 人 力 和 财 政 资 源,而 且 过 程 也 很 缓 慢。 正由于这些缺陷的存在,才促进了观点检索系统的产生与发展。 随着 Web2.0时代的到来,网络已成为响应社会舆论的重 要载体 [2]。越来越多人 通 过 博 客 来 对 热 点 问 题 发 表 观 点。因 此,本文将观点检索系统应用到博客这个新兴领域。它对于众 多商业产品,关键分析领域等等的决策均具有广泛的应用前景 和现实意义。本文基于博客文章,通过设定相关目标,提取并标 识观点方向(积极、消极或混合)。通 过 实 例 进 行 验 证,实 验 结 果显示本文提出的方法获得良好的效果。 1 观点检索系统架构分析 图 1 典型观点检索系统架构 主题检索部分,需要在博客文章中定位包含给定的主题 目 标的相关信息 [4]。它 是 基 于 Lucene.Net检 索 工 具 包 来 实 现 相 关博客内容的检索,并返回文档相关的分数,然后根据分数划分 一个典型的观点检索系统主要由主题检索部分、观点检 索 部分和极性检测部 分 等 三 部 分 构 成。系 统 的 体 系 结 构 如 图 1 所示 [3]。 收稿日期:2012-08-12。江苏省交通科学研究计划项目(2011Y21 -3)。王富荣,副教授,主研领域:计算机应用,信息安全。张宏,教授。    32    计算机应用与软件 2013年 不同等级。其中应用到简单查询扩展技术以优化检索效率(在 这里不做详细信息检索)。 观点检索部分,需要在博客文章中定位对给定的目标形 成 的观点。它使用主题检索部分得到的分数进行进一步分析,然 后使用线性组合模型得到最终版本的相关性分数,在后文中将 进行详细分析 [5]。 极性检测部分,需要提取并标识观点方 向 (积 极、消 极 或 混 合)。本文提出了一种基于负规则的极性算法,后文将详细讨论。 2 基于博客的观点检索模型 一般来说,博客 包 含 三 个 部 分,即 标 题、内 容、评 论。因 为 三个部分的文本表达、语言和习惯都是不同的,所以每个部分观 点分数的计算方法也不同 [6]。同时,每个部分的消息内容是不 同的,因此,博客内不同内容对观点分数的贡献也不同。综合考 虑上述因素,使用不同的方法为博客的标题、

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档