互联网实时信息搜索引擎.docxVIP

下载本文档

0
0
约6.44千字
约 8页
2023-04-20 发布于天津
举报
版权申诉

互联网实时信息搜索引擎.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

互联网实时信息搜索引擎北京信息工程学院都云程 du.yuncheng@ 北京市经济信息中心武朝尉 wucw@ TRS信息技术有限公司王洪俊程鸿兴摘要本文介绍了一个实时信息搜索引擎系统的技术实现框架。系统的设计目标是克服传统搜索引擎在信息更新滞后以及检索结果排序方式单一等方面的缺点，满足用户对特定信息的实时查询需求，并提供检索结果的内容相关排序和时间排序等多种排序手段。系统融合了基于统计学习理论的自动分类技术以及基于文本特征的自动排重技术等智能化信息处理技术，有效提高了信息服务的质量。关键词搜索引擎，实时信息，自动分类，相关排序Abstract Arealtimesearchenginesystemisintroducedinthispaper.Thesystemisdesignedtoovercometheshortcomingsoftraditionalsearchenginesinlongindexupdatescheduleandretrievalresultssortingmethod,andmatchestheneedsofrealtimeinformationretrievalandmultiplesortingmethods.Someintelligentinformationprocessingtechnologiesisalsoadoptedinthesysteminordertoimprovetheeffectivenessofsystemservices,suchasautomatictextclassificationbasedonstatisticallanguagemodelingandoverlappedwebpagefilterbasedontextcharacteristics. KeywordsSearchEngine，RealTimeInformation，AutomaticTextClassification，RelevanceRanking一、背景分析据最新统计，互联网上的Web网页已经超过30亿的数量，这无疑是当今世界上最丰富的信息宝藏。随着人们日益习惯于在这个宝藏中发掘所需的信息，搜索引擎逐步成为人们越来越依赖的工具。但是通过研究可以发现，通用的搜索引擎系统在某些方面并不能很好地满足专业化的信息需求，即搜索引擎有其应用上的局限性，这些局限性很大程度上影响着专业化信息搜索的效果。主要的局限性表现在两点： 1、时效性从时间的角度看，互联网是一个内容随着时间不断变化的信息集合。每时每刻，总有新的网页产生，也有旧的网页被删除。搜索引擎所能反映的是一个特定的时间段（即建立索引的时间段）内互联网的信息特征。这样就产生了两个局限：搜索引擎不能包容已经被删除掉的网页，也就是说它不能充当资料库的作用。现在能检索到的信息，可能过一段时间就检索不到了；你也许意识不到，当你得到一个检索结果时，可能有一些对你重要的信息已经不复存在了。目前搜索引擎的更新速度一般需要三周以上的时间。有的搜索引擎对重要的网站采用较高的采集频率，但一般也要以几天为周期。可见，如果需要查询事件的最新消息，搜索引擎是无能为力的。人们不得不采用采用传统的方式在众多的网站之间苦苦寻觅，80%的时间在查找信息，只有20%的时间在利用信息。 2、排序手段互联网搜索引擎的检索结果集合一般都比较庞大，小则几十万条信息，多则千万条信息，因此如何将庞大的信息集合经过适当的排序后提交给用户是一步关键的工作。目前比较普遍的做法是利用超链分析(PageRanking)和其它网页内容分析技术结合起来做出排序结果。搜索引擎一般只能给出单一的排序结果，用户则无法选择其它的排序方式。至于有些搜索引擎提倡的竞价排名排序方式，更多的是出于商业考虑而非技术驱动。为了克服上述搜索引擎的局限性，满足专业用户对Web信息的处理需求，我们在多年工作的基础上，研制出适合实时信息查询和资料库建设要求的应用系统，称为互联网实时信息搜索引擎。它的主要特点是，能够即时获取用户所关心的最新信息，并利用资料库做永久保留，采用自动分类、内容过滤、自动排重等技术手段对获取的信息进行智能化加工处理，最终提供基于Web的分类导航、信息浏览、内容检索等服务功能。二、体系结构和功能特点我们研制的互联网实时信息搜索引擎主要是为了克服搜索引擎存在的信息滞后问题，该系统除了具备常规的信息导航和信息检索功能外，还为了互联网信息管理的方便性增加了自动分类、网页内容自动过滤、自动排重、资料库存储、时间排序等功能。互联网实时信息搜索引擎结构示意图系统工作过程可以描述为，网页自动采集工具负责按照维护人员指定的周期扫描监控网站上信息的变化情况，发现新的信息后立刻采集到本地，进行全自动的