- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于聚焦搜索引擎课程资料库建设探析
基于聚焦搜索引擎课程资料库建设探析摘要 以我校本科学生自主实验室建设项目为基础,分析了聚焦搜索引擎在课程资料库建设实践方面的可行性。重点是以聚焦搜索引擎为工具,从网络上抓取课程资料库需求资料,形成完备的、具备可持续更新的课程资料数据库,适应学科发展和知识更新。
关键词 聚焦搜索引擎 网络爬虫实验室建设
一、引言
互联网的使用已经渗入到社会的各个层面,特别是教育领域,为高等院校的本科教学提供了庞大的信息资源,但要从这么大的资源库中寻找到自己需要的内容却是非常难。高校师生经常会使用像google、baidu等搜索引擎来帮助寻找自己要的资源。但其超大规模的分布式数据源、异构的数据及信息的检索质量不高等问题造成用户很难找到真实要用的信息,使其无法直接为高校师生提供资源服务。为了解决这一问题,本文探究了一种基于聚焦搜索引擎的课程资源库建设方案,为高校师生提供课程信息资源的检索服务。
二、聚焦搜索引擎实现策略
聚焦搜索引擎是实现基于主题的信息采集功能的核心组成部分,一般由爬行队列、网络连接器、主题模型、内容相关度分析以及链接相关度分析等功能模块组成。
其中,爬行队列是由一系列主题相关度较高的URL组成。爬行队列在聚焦搜索引擎进行主题搜索之初是由种子站点组成,这些种子站点可以由该行业领域的专家给出,也可以借助一些权威网站自动生成。在搜索过程开始之后,系统发现新的URL,并根据主题相关度对其排序后补充到爬行队列中。网络连接器则根据爬行队列中的URL,与网络建立连接后以下载其所指页面内容。
主题模型由主题建模方法来实现。主题词法是常用的主题建模方法;关键词法以一组特征关键词来表示主题内容,包括用户需求主题,以及文档内容主图。一个关键词可以是单个的词、短语、包括权重语种等属性。
内容相关度分析是指系统对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度如何,过滤无关页面,保留相关度达到阈值的网页。
链接相关度分析是指系统对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将符合主题度要求的URL加入到爬行队列中并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到。
检索器为用户提供查询界面,根据用户提出的检索式对索引数据库进行检索,按相关度高低对查询结果排序后将页面链接及相关信息返回给用户。
管理平台负责对整个系统进行监控和管理。主要实现确定主题、初始化爬行器、控制爬行过程、协调优化模块间功能实现、用户交互等功能。作为一个完善的搜索引擎,管理平台还应供跨平台应用网络服务应用接口。
三、基于聚焦搜索引擎的课程资料库建设所需技术
1、数据库技术:数据管理是现代计算机的一项重要应用,对数据进行分类、组织、编码、存储、检索和维护的利用。数据库技术为应用程序提供了更为标准和开放式的接口。
2、面向对象技术:面向对象技术对于复杂知识单元的结构表示,课程资源库的构件化集成、信息处理模块的整和等都是至关重要的。本建设课题以J2EE开发平台为基础。
3、网络技术:计算机网络将地理位置不同并具有独立功能的多台计算机系统通过通信设备和线路连接起来,以功能完善的网络软件实现网络资源共享的系统。
4、人工智能技术:人工智能从学习者的结构特征、知识的表示等方面来进一步培养学习都能从庞大的知识库从寻找到有价值的,值得学习的资料。
四、基于聚焦搜索引擎的课程资料库的开发步骤
本系统首先对web中存在的相关指定课程资源的页面进行搜索,然后对搜索到的网页进行预处理与结构分析,再从网页中提取多媒体资源的相关文本,相关文本进行拼音及英文翻译转换、中文分词、关键词过滤提取等操作,最终形成对指定课程相关资源进行描述的信息库。
1、搜集指定课程资源网页。利用网络资源搜索器baidu或google等搜索与多媒体相关的web页面,利用页面的HTML标签等属性计算机内容相似度。这个过程中包括将html代码保存在一起,组建一个资源库,利用搜索策略决定搜索器的爬行主题和爬行方向,提高搜索引擎的准确率。
2、分析资源网页和定位多媒体区域。获取charset的属性值,判断网页的编码语言和编码类型。接着定位多媒体区域,利用网页结构图判断资源的表格区域,将与资源描述相关的文本定位,尤其是那些导航文本对于资源的搜索非常重要。通过一定的算法将干扰的文本区域或干扰文本剔除,保留有利用价值的文本。
3、提取指定课程资源相关文本信息。
4、入库所抓取的关键信息。提取的相关文本信息,只是做了一个关键字的选择,还要将这些关键字入库到数据库,这部分工作就是信息入库工作。
5、利用管理平台负责对整个系统进行监控和管理。主要实现指定所要抓取的课程资
文档评论(0)