面向教学的Web搜索引擎中页面语法信息的抽取和元信息的提取.pdfVIP

面向教学的Web搜索引擎中页面语法信息的抽取和元信息的提取.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要 摘 要 、\/ 、Web是一个巨大的教学资源信息库,然而,目前大部分通用的Web搜索引擎很难胜任教 学领域的信息检索工作,鉴于此,有必要开发一个面向教学的专用搜索引擎。 SEAGINE是一个自主开发的面向教学的Web搜索引擎,它通过提供教学专用领域的信息 索引以及特别面向教学的检索服务来达到提高教学资源检索质量的目的。在系统的设计过程 为了提高信息索引和各种检索服务的质 处理阶段的Web页面语法信息抽取和语义 级元信息的提取工作起到了至关重要的作 从预处理阶段的这两方面工作入手,着重 讨论了以下这几个方面的内容: (I)系统分析了HTML文档解析处理的相关技术,其中包括传统的基于有限状态自动机的词 法分析技术、基于递归下降思想的语法分析技术等。在此基础上,设计并实现了一个面向Web 信息检索的HTML解析器,该解析器具有速度快、容错性高的特点。 (2)基于HTML文档解析的结果,根据Web信息检索的需求,本文提出了一整套对页面内部 的文本、多媒体对象的上下文、页面中的URL信息以及统计信息等进行抽取的处理机制,为 提取元信息以及建立索引等后期处理打下了坚实的基础。 (3)在面向教学的信息检索应用中,网上的大量教学图像往往是检索的重点,所以识别出教 学相关图像并对它们加以分类是一项非常有意义的工作,本文将这两方面工作统称为图像的 基础分类,在这个部分的设计中,SEAGINE提出了基于教学相关图像特点的三种分类 (即照 片、计算机渲染图以及示意图),对分类特征的表示和量化进行了详细的阐述,并给出了实验 的结果。实验表明,对于示意图的区分达到了较高的精度。 (4)本文界定了课程相关页面的含义并提出了这种页面的类型划分 (即课程入口页面、课程 列表页面以及具体信息页面);接着在大量的分析工作基础之上,进行了课程相关页面分类特 征的表示和量化,最后,基于分类的结果,采用简捷的算法对课程内容 (范围)进行了确定。 (5)页面重要程度是现代页面分级技术的一个重要方面,本文引入了经典的用于衡量页面重 要性的技术一PageRank技术,将其作为页面分级元信息提取的一部分;在详细分析了PageRank 的思想之后,本文还介绍了一个高效的基于分块的PageRank的实现算法,作为SEAGINE开 发中相应部分的指导和参考。 (6)页面细节度是用来刻画页面对于主题描述细节程度的一个指标,本文采用页面中有关表 格、公式以及多媒体对象的数量统计值作为页面细节度衡量的依据。整个思想和算法是 SEAGINE页面分级机制中的一个技术尝试。 本文对教学专用搜索引擎SEAGINE的预处理部分所涉及的相关技术和实现方案进行了 系统的讨论,其中的分析和论述对于实际系统的开发起着重要的指导作用;另外,有关HTML 解析、图像清洗、页面重要性的衡量以及各种分类1_作的思想和技术也可以应用到其它Web 信息检索系统中。 关键词:面向教学,Web搜索引擎,信息检索 文档赫再率 Abstr朗t 一 -一 一 一 一 一 - ABSTRACT AnincreasingnumbcrofPeoplebegintouse罗neralwebsearchenginestoretrieve teaching一roientedinrofmationnohteweb,butthe爬xeitsprbQlems.Firts,otgetherwihtosmeuseufl inofrmation,hugemaountsofteachingirrelevantinofmrationalsoreachesusersbecuasegeneral Webserachneginesalw盯sindxehtewho、eweb;mroevore,sPecifioneedinte即hingfie记ucshas hterertieva1ofcours

文档评论(0)

实验室仪器管理 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档