- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微课管理系统站内搜索增强研究和实现
微课管理系统站内搜索增强研究和实现
摘要:本文结合分词搜索、相关度排序、自定义分页,并使用存储过程实现搜索。在搜索的准确性、相关度、性能、安全等方面都有较大的改良,较好的解决了微课管理系统的站内搜索难题。
关键词:微课;分词搜索;相关度排序;存储过程
中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2017)10-0035-02
伴随着微课在高校教学中的应用日益普及,越来越多的高校根据自身需求,对微课管理系统进行自主研发或二次开发。站内搜索是微课管理系统中的一个重要功能,直接影响了用户能否快速搜索到所需要的微课资源。使用搜索引擎平台提供的站内搜索(如:百度站内搜索),存在着数据收录延迟与收录不全的缺陷,同时。纯粹模糊查询的站内搜索相关词无法匹配且容错性低,也不能满足微课管理系统中站内搜索的需求。因此,急需一种可行性高、适用于高校自建微课管理系统的搜索方案。系统开发借鉴主流搜索引擎的搜索原理,以闽北职业技术学院微课管理系统(以下简称系统)为开发实例,从分词搜索、相关度排序、自定义分页三个方向进行研究,并使用存储过程实现系统站内搜索功能。
1 搜索增强方案研究
系统搜索的重点并不是把大量的微课资源搜索出来,而是在注重搜索准确性的同时提高搜索的容错性,将搜索结果按相关度进行排序,并以分页的方式高效的呈现给用户。
1.1 分词技术
分词技术指搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术[1]。分词技术经过大量的实践应用,发展至今已十分成熟。分词技术包括3种方法,分别是:字符串匹配的分词方法、词义分词法、统计分词法。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢也会影响分词效果。因此,分词的准确性与速度是分词技术的两个重要指标。
1.2 中文分词
中文分词指的是将一个汉字序列切分成多个单独的词,是一个将连续的字序列按照一定的规范重新组合成词序列的过程[2]。虽然分词算法十分成熟,但在中文分词中仍然存在两大难点:
(1)歧义识别:歧义指一个句子可能有多种切分方法。包含交叉歧义和组合歧义,组合歧义必须根据整个句子来识别,比交叉歧义更难。(2)新词识别:新词指专业术语未登录词。新词中的人名、机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,且使用频率较高。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
1.3 中文分词系统
由于中文分词在实现上难度大、投入高,对于高校自建的系统而言,使用现成的中文分词系统用以解决搜索过程中的分词难题,投入小、见效快,是一种不错的解决方案。中文分词系统比较有代表性的包括:汉语词法分析系统(ICTCLAS)、基于HTTP协议的开源中文分词系统(HTTPCWS)、简易中文分词系统(SCWS)、PHP无组件分词系统(PhpanAlysis)。以上4种中文分词系统对于中文分词、词性标注、命名实体识别、新词识别、支持用户词典都有较强的功能支持,能够解决搜索过程中的分词难题。
简易中文分词系统(SCWS)提供了分词API,可供用户直接调用,让用户省去了分词系统搭建与词库维护的工作。SCWS分词API仅支持POST请求方式,其请求参数变量及含义如表1所示。
在保障分词功能的基础上结合投入的成本与使用的便捷,系统采用简易中文分词系统(SCWS)提供的分词API进行分词,并将分词API调用过程封装成一个方法。
1.4 相关度排序
相关度指的是查询关键字与查询结果的匹配相关度。相关度排序可以将匹配越高的查询结果越靠前显示,从而让用户更快的查阅到自己想要的数据。搜索引擎会对搜索结果用算法进行排序后再显示,相关度涉及到的因素较多,不同的搜索引擎其算法也有所区别。
基于关键字词频的相关度算法指的是关键词在被搜索内容中出现的次数越多则匹配相关度越高,在搜索结果中排序越靠前。在MSSQL中并没有提供计算关键词在被搜索内容中出现次数的函数,因此,需要编写一个UDF来实现计算关键词在被搜索内容中出现的次数,供执行搜索操作的存储过程调用。对于自建微课管理系统而言,在选用相关度算法时要结合实现的难度与后期维护的工作量。经分析,系统采用基于关键字词频的相关度算法,并结合发布时间与访问量进行排序。
1.5 自定义分页
搜索的过程涉及数据读取与数据呈现,当数据量较大时消耗的时间会较多。为了进一步提高搜索性能,使用自定义分页对数据进行读取与呈现,可提高数据读取和数据呈现两个环节的性能。普通分页与自定义分页相比,如图1、图2所示。
通过图1与图2的对比,自定义分页基于存储过程实现,只读当前页?稻荩?直接绑定数据控件无
原创力文档


文档评论(0)