- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国科技论文在线
基于CRF 的半监督查询构建
单单,李思
北京邮电大学模式识别与智能系统实验室 ,北京(100876)
摘 要:博客(blog)作为web2.0 的一种典型表现形式,反映了社会的诸多方面 ,在博客被广
泛应用的今天 ,有关博客主题的相关检索的研究不断深入。由于网页中的内容含有大量的干
扰信息,而最常用的方法有时无法达到令人满意的精度 ,本文研究基于CRF 的半监督查询
构建 ,并与人工构建和基于规则等方法进行比较,同时简单介绍预处理、组合模型部分。最
终,在查询构建、组合模型方面对于提高精度,改善MAP 都有明显效果。
关键词:博客,主题检索,查询构建 ,组合模型
中图分类号:TP391
1. 引 言
互联网已来到web2.0 时代,用户可以自由编写并与其他用户分享 “博客”越来越受欢
迎。CNNIC 第22 次报告:目前中国拥有个人博客的网民比例达到42.3% ,用户规模已经达
到1.07 亿人。半年内更新过博客的网民比例为28%,半年内更新过的用户规模超过7000 万
人,半年更新用户增长率高达43.7% 。中国与国际上其他互联网发达国家一样,博客/个人
[1] [2]
空间发展的热潮仍在持续 。渐渐地,博客成为一个重要的释放和传播网络信息的媒介 。
一般来说,一个典型的博客,主要包含的文本和图片都有关同一主题,并与其他博客的
链接以及网页服务作为补充。博客最重要的特点是作者可以通过他人做出的评论与其沟通。
研究者针对博客的不同特点和领域进行相关研究,如博客主题内容分析,博客观点分类,博
客趋势分析,通过博客空间的信息传播,博客空间的演进,主题检索,观点检索等等。
在本论文中,我们首先简单介绍预处理工作。因为作为一种信息的载体,网页总是有许
多广告,导航栏,页眉,页脚等不相关主题的内容;同时,每个网页可能有不同的主题。所
以,我们将被视为是在大多数网络信息检索系统中最小的粒度的网页进行拆分。另一方面,
检索结果的精度对于查询密切相关。我们尝试三种方法来设计基于TREC07 给定的主题描述
的查询。首先,基于 CRF (条件随机场)的半监督机器学习来用于提取查询词;其次,我
们设计手动构造查询和基于无监督的机器学习提取查询词,并将三种方法进行比较。最后,
我们将文本检索与段落检索结合起来,以弥补为了提高精度而对于召回率的损失。实验基于
Blog Track [3]语料并且实验结果取得良好的效果。
本文的其余部分安排如下:在第 2 部分,回顾相关工作;在第 3 部分,我们介绍基于
CRF 的半监督查询构建,并与人工构造和基于规则等方法进行比较,同时简单介绍预处理、
组合模型部分;在第4 部分,我们使用Trec Blog06 语料库来评估并显示结果;最后,在第
5 部分,给出结论和对未来工作的意见。
2. 相关工作
越来越多的博客用户给互联网带来巨大的信息,所以包括博客检索、博客结构和博客分
- 1 -
中国科技论文在线
析工具等博客研究课题越来越具有挑战,很多研究者开始强调博客搜索引擎的重要性。
2.1 博客主题相关检索
博客的主题检索与传统的网页信息检索最大的不同在于:博客主题检索的检索对象是博
客内容,而网页信息检索面临的整个网络的内容。
[4] [5]
根据Mishne 和 Rojke 对于Blogdigger 的查询日志的研究 。他们认为博客检索与普
通的网页信息检索相比较,具有以下三个特点。首先,博客检索的对象总是命名实体;其次,
用户有他们自己的明确的兴趣定位;最后,博客用户的行为是类似于一般的网络搜索引擎。
根据以上特征可知博客的内容具有明显的主题,并且内容反映了作者的观点,我们的论文关
注于主题相关检索。
原创力文档


文档评论(0)