- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
博客观点检索系统研究与实现
李潇,徐蔚然*
(北京邮电大学信息与通信工程学院,北京 100876)
5
10
15
20
25
30
35
40
摘要:博客是一种重要的信息载体,其内容包含了作者丰富的情感和观点。如何准确有效地
挖掘和检测出博客所包含的这些隐含信息,是近些年来的一个研究热点。本文除了关注如何
根据用户查询,查找出与查询相关的博客,同时还对博客的观点检测方法进行了研究。本文
提出的博客观点检索框架,应用了基于词的主客观判定方法,针对用户查询,检索出内容相
关的博客,并且给出了按照观点相关程度进行排序的结果。经实验证明,本文所应用的观点
检测方法能达到比较高的性能要求。
关键词:信息检索;观点检索;博客检索;观点挖掘
中图分类号:TP391.4
Research and Implementation on Blog Opinion Finding
System
Li Xiao, Xu Weiran
(School of Information and Communication Engineering, Beijing University of Posts and
Telecommunications, Beijing 100876)
Abstract: Blog is an important information carrier which contains rich emotion and opinion. Recent
years, it is a hotspot to research on how to retrieval the implicit information in the blogs accurately and
effectively. This paper not only concern on finding the relevant blogs according to users query, but
also detect the two facet opinionated vs factual of the relevant blogs. We present a improved blog
opinion retrieval framework in which subjective and objective lexicon are applied, and results with
opinion ranking are provided.As proved by experiment, the method which applys on the retrieval
system can improve the performance of the two facet identification effectively.
Key words: information retrieval; opinionated; factual; opinion detection; blog retrieval
0 引言
随着 Web 2.0 的快速发展,网络上呈现给我们越来越多的带有观点性的不同主题的文
档。博客检索是在博客域(Blogosphere)中进行检索。博客域是由博客以及博客之间的互联
组成,如图 1 所示。其含义是博客是以一个相互之间有连接的社区或者是一个社区网络而存
在的[1],在这个社区网络里,人们每时每刻都能发表自己的观点。传统的博客相关性检索是
找出与给定主题相关的博客,并按照相关度进行排序。但博客观点检索除了要检索出与主题
相关的博客,还需要找出观点信息比较明确的博客。在 2006 年,由美国国家标准技术研究
所(National Institute of Standard and Technology, NIST)主办的文本检索会议 TREC 评测
中,首次增加了博客检索的任务。当时的检索任务是在基于对商业博客搜索引擎分析的基础
上提出来的,主要分为两个小任务:一是观点查找任务,即“人们对某一话题 X 的看法”;
另一个是博客精选任务,即找出对某一话题有持续兴趣的博客。在随后的几年里,博客观点
检索一直是 TREC 博客评测[2]的主任务。在 2009 年的 TREC 博客评测中考虑了博客的一些
属性和其他方面的因素,将对博客的观点性判断作为子任务提了出来,并在 2010 年又将博
客的客观事实性判断加入到任务中,即不仅要找出与给定主题相关的观点性博客,如对某一
作者简介:李潇(1987-),男,硕士,主要研究方向:信息检索. E-mail: buptlx0201@
通信联系人:徐蔚然(1975-),男,副教授,主要研究方向:信息检索.
您可能关注的文档
最近下载
- 邮储银行柜员培训课件.pptx VIP
- 2025年浙能集团甘肃有限公司、新能源项目(第二批)招聘17人笔试备考题库及答案解析.docx VIP
- 通威新员工入职培训第一次考试.docx VIP
- 2025广西专业技术人员公需科目培训考试答案(87分);广西“一区两地一园一通道”建设;人工智能时代(1).pdf VIP
- 入学证明怎么写(模板).docx VIP
- GBT 11345-2023 焊缝无损检测 超声检测 技术、检测等级和评定.pdf VIP
- 2025年浙能集团甘肃有限公司、新能源项目(第二批)招聘17人笔试参考题库附答案解析.docx VIP
- 解读《GB_T 44770-2024智能火电厂技术要求》全面解读.docx VIP
- 西安研学旅行策划书3篇.pdf VIP
- 建筑工程识图课件-建筑识图与构造课件.ppt VIP
文档评论(0)