WBIAjecttialort基于搜索引擎的自动综述系统槌稍.doc

WBIAjecttialort基于搜索引擎的自动综述系统槌稍.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
WBIAjecttialort基于搜索引擎的自动综述系统槌稍

WBIA Project Initial Report — 基于搜索引擎的综述系统, 和。通过这样的“后搜索引擎”,用户可以很方便地得到自己需要的信息,因此,一个成功的“后搜索引擎”,可以拥有大量的用户群。而在网络时代,拥有用户群,就是拥有商机。既然国外已经有成功的例子,而在中国,这块领域还是空白,这就给我们提供了挑战和机遇。因此,我们希望能做一个北大自己的“”。同时,作为对传统搜索引擎功能的扩充,这种系统也可以引起用户群和投资者的密切关注,具备很好的商业前景。 的界面 3.商业模式 由于分类呈现的搜索结果可以更友好的提供广告(在左侧某一结果类别我们可以放置广告,同时提示用户此类别为广告信息),因此我们可以通过竞价或者出售这一类别中的广告位(广告词)的方式来获取商业利益,从而具有很广阔商业前景,同时不影响用户体验,一定程度上解决了Baidu等搜索引擎竞价排名的商业模式带来的负面影响,即搜索用户可以选择是否接受我们的广告。 4.研究背景 国外对自动综述很早就进行过深入的研究,而国内85年起也开始了这方面的探索,但是迄今为止没有比较成功的系统出现。我们对国内外多种自动综述算法进行深入调研,力图探索一种实用的多文档自动综述的获取方式。希望本系统实现在本地文档全文检索和web搜索引擎的基础上进行多文档自动综述的提取。 5.系统架构图 系统总体框架如下图所示: 6.初步计划 6.1前台界面 仿的界面组成,拥有搜索栏,左边的聚类栏,还有右边的链接显示。 6.2后台程序 原型系统分为以下几个模块: 源数据获取模块。源数据来源于两个方面: 利用选定的Web搜索引擎(google,baidu,Tianwang等)得到返回结果。 本地文档全文检索得到的结果。 抓取模块,将Web结果URL对应的页面抓取下来。 分段模块。利用合适的分段算法,将每个文本分为多段。 聚类模块。将所有段用聚类算法实现聚类。难点:算法效果和效率?有待研究 类排序。将所有聚类进行排序。 抽取段。将排好序的每个聚类中抽取一些片段,将这些片段组合在一起,构成综述。 寻找推荐文章。在聚类中,寻找相似度最大的文章,作为该类的推荐文章。 (其中,3-6为本系统综述自动生成的核心模块,值得深入研究) 6.3流程图 6.4创新点 1.在左边的聚类栏中,我们计划给每个聚类后面添加一个“查看综述”链接和一个“推荐文章”链接。 结构如下:聚类名称 [查看综述] [推荐文章] “查看综述”链接可以提供给用户该聚类的综述。但是,仅仅有综述可能还不能满足用户的需求。因此,我们还有“推荐文章”链接,该链接返回聚类中最具代表性的文章,从而提供给用户更大的信息量。 2.同时可以提供本地文档集的全文检索和web检索两种功能。 3.支持本地文档格式的内容提取,如pdf、doc等。

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档