站内教学资源的个性化搜索机制研究..docVIP

站内教学资源的个性化搜索机制研究..doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
站内教学资源的个性化搜索机制研究.

站内教学资源的个性化搜索机制研究 P站内教学资源的个性化搜索机制研究/P P  关键词:教学资源;个性化;搜索机制 BR摘要:针对高校教学资源日益丰富却检索困难的问题,对站内文档的个性化搜索机制进行研究。在分析个性化搜索系统功能的基础上提出了总体架构,并对实现架构中各模块所需的关键技术进行了详细的阐述,分析结果表明此机制可提高搜索系统的智能化水平。 BR   /P PBR   BR  一、研究背景和研究内容 BR  随着高校校园网的快速发展和现代教育技术的普及,越来越多的教师将自己搜集和制作的各种教学资源,以文档形式上传到学校的服务器上,供学生和其他教师下载。当前大多数提供此类服务的网站,都以分类目录或基于关键词的搜索为用户提供教学资源的检索服务。但当服务器上的教学资源数量很大、涉及范围很广时,用户想从中快速查找到自己所需的目标文档就变的很困难。 BR  本文针对以上的问题设计了一个在校园网环境下,具有对站内教学资源进行个性化处理功能的搜索机制,可为高校教务和教学管理信息系统提供智能化的检索服务。该机制主要包括系统总体架构和实现各模块功能所需的关键技术,其设计思想为在通用的基于关键词搜索机制的基础上[1],增加个性化建模模块和结果处理模块,根据用户兴趣模型对查询词及结果集进行个性化处理。 BR   BR  二、总体架构设计 BR  系统架构设计系统架构主要包括五个功能模块:用户接口、索引模块、查询模块、个性化建模模块和结果处理模块。 BR  (1)用户接口 BR  用户接口是搜索系统与用户之间的交互界面,用于接收用户输入,返回搜索结果。在接收用户输入时,如果是用户注册信息,用户接口将信息转发给用户建模器;如果是查询词,则将查询词同时转发给查询器和用户建模器。用户接口在接收到结果处理器的返回结果时,将返回结果直接转发给客户机浏览器。 BR  (2)索引建立模块 BR  索引建立模块包括索引器、教学资源库、词典和索引库。用于将教学资源库中的文档进行解析,将非文本格式的文档进行预处理,然后根据词典进行分词处理,最后建立倒排索引存入索引库。 BR  (3)个性化建模模块 BR  个性化建模模块包括用户建模器和用户信息库,其中用户信息库又包括用户兴趣模型和用户查询记录两个子库。在接收到用户接口发来的信息时,如果为用户注册信息,个性化建模模块针对用户的兴趣、专业和其他信息为用户建立个性化兴趣模型,该模型由基于关键词的向量表示;如果是查询词,则将其存储到相应用户的查询历史记录中。 BR  (4)查询模块 BR  查询模块包括查询器、索引库和用户信息库。查询模块在接收到用户接口发来的查询信息时,先将查询词根据用户兴趣模型进行扩展,然后再与索引库中信息进行匹配,最后将产生的结果集发送给结果处理模块。 BR  (5)结果处理模块 BR  结果处理模块包括结果处理器和用户信息库。结果处理模块在接收到查询器返回的结果集后,首先,根据用户兴趣模型对结果进行排序,即通过特定算法进行相似度的评价,使更符合用户个性化需求的结果排在前面;其次,根据用户兴趣模型对结果集中的文档进行信息抽取,生成个性化的文档摘要;最后,将结果信息发送给用户接口。 BR   BR  三、关键技术研究 BR  (一)索引建立模块 BR  对于索引建立模块,本文在开源全文检索工具包Lucene的基础上进行开发[2]。Lucene在建立索引方面提供了为文档建立倒排索引的功能,Lucene的索引书写器类IndexWriter只能对纯文本的二进制字节流进行索引,其文本分析器类Analyzer以二元为默认方式进行分词。在本文中,教育资源库中的文档多为中文的非纯文本文档,因此,需要进行文档预处理,并为IndexWriter类构造具有中文分词功能的Analyzer对象。 BR  (二)个性化建模模块 BR  对于个性化建模模块,采用用户注册、系统动态更新的方式进行用户兴趣模型的生成和管理。 BR  (三)查询模块 BR  对于查询模块,采用基于用户兴趣模型的查询词扩展进行目标文档检索。 BR  (四)结果处理模块 BR  对于结果处理模块,主要进行结果集的个性化处理,首先根据用户兴趣进行结果排序,然后动态的生成个性化的文档摘要,最后将结果返回给用户接口。 BR   BR  四、性能分析 BR  (一)索引器 BR  一方面,索引器采用的POI和PDFBox组件为Apache的开源组件,这两种组件功能强大,效率也不逊色于通用搜索引擎的专用文档解析工具,足以胜任对高校站内文档进行纯文本数据提取的工作。另一方面,索引器采用专业的中文分词组件,提高了索引器的分词效率和准确性。 BR  (二)用户建模器 BR  用户建模器建立的用户兴趣模型采用最基本

文档评论(0)

v4v5v4I + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档