BERSE一个基于机器学习的专业化搜索引擎.pdfVIP

  • 19
  • 0
  • 约9.03千字
  • 约 4页
  • 2017-06-27 发布于河南
  • 举报

BERSE一个基于机器学习的专业化搜索引擎.pdf

BERSE一个基于机器学习的专业化搜索引擎

技术应用 2008年3月 BERSE:一个基于机器学习的专业化搜索引擎 口谭金波李艺杨晓江 【摘要】 随着Internet的迅速发展,专业化搜索引擎因其可以准确且快速检索特定用户需要的专题信息而越 来越受到广大用户的欢迎。然而,专业化搜索引擎的维护和更新却要费去太多时间。为了克服该问题,我 们在搜索引擎中引进机器学习机制,针对基础教育设计并实现了一个基于机器学习的专业化搜索引擎 BERSE,其关键技术是只追踪基础教育信息的主题蜘蛛和文本分类器,从而加快信息的检索与更新,并且 具有很高的查全率和查准率。 【关键词】专业化搜索引擎;机器学习;主题蜘蛛;文本分类 【中图分类号】C,40-057【文献标识码】B 【文章编号】100旷_458x(2008)03—0065—03 目前,传统的搜索引擎或检索技术已很难满足 资源采集模块根据控制模块传递来的运行模式信 特定行业、特定用户对特定信息或服务的特定需求, 息和URL列表访问网络采集资源。资源包括:URL 因而出现了专业化搜索引擎,专注搜集与某一主题相 所对应的以网页为主的网络资源,包含在网络资源中 关的重要的页面,且保证对某一领域信息的完全收录 的链接出URL为主的Web结构信息。采集来的网络 与及时更新。为了克服专业化搜索引擎的维护和更新 资源将传送到网络资源数据库供索引器进行分类和标 速度问题,我们引进机器学习机制【,l来优化搜索引 引。对于从资源中分析得到的链接结构信息。将通过 擎,设计了一个面向基础教育领域、基于机器学习的 控制模块传回URL中心数据库系统。 Educational 专业化搜索引擎BERSE(Basic 控制模块根据系统的要求来管理一定数量的独立 ResourceSearch 分布运行的资源采集模块。同时,接收采集模块返回 Engine)o 的URL列表状态和采集回的Web结构信息,并更新 URL中心数据库。 管理中心模块用来监控管理分布运行的若干个控 信息自动获取技术、Web数据挖掘技术、文档 制模块、资源采集模块。主要收集分布运行的资源采 自动索引技术和全文检索技术等是构建专业化搜索引 集模块和控制模块的地理信息、所处网络状态、运行 擎的主要技术,其实现过程如图1所示。 状态、负载情况;根据资源采集模块的位置、运行情 专业化搜索引擎和一般的搜索引擎的工作原理 况动态分配控制器所控制的采集模块的数目。 基本相同,不同的是在搜索过程中增加了两大关键技 采集策略模块是一个决策系统,包括~系列采集 术:主题蜘蛛——围绕特定领域进行搜索,缩小搜索 策略和策略实施子模块。它从URL中心数据库、分 范围,增强搜索精确度和更新速度;文档自动分类技 类索引数据库、用户信息库获得相关信息,通过使用 术——自动过滤非特定领域的信息,并且对过滤后的 Web结构分析、文档相关度分析、用户检索统计等 领域信息进行自动分类,从而实现按类别组织。 技术设计构造出符合专业资源搜索的采集策略。 (2)搜索策略

文档评论(0)

1亿VIP精品文档

相关文档