- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关键词的互联网网页信息主动搜索系统研制[整理]
研究生实验报告
实验名称:
基于关键词的互联网网页信息主动搜索系统研制
课程名称:
任课教师:
学生姓名:
学生学号:
学生学院:
学生学科:
目 录
TOC \o 1-2 \h \z \u HYPERLINK \l _Toc403161030 1 引言 PAGEREF _Toc403161030 \h 3
HYPERLINK \l _Toc403161031 2 系统设计与实现 PAGEREF _Toc403161031 \h 3
HYPERLINK \l _Toc403161032 3 系统特色分析 PAGEREF _Toc403161032 \h 6
HYPERLINK \l _Toc403161033 4 系统自测试 PAGEREF _Toc403161033 \h 7
HYPERLINK \l _Toc403161034 5 参考文献 PAGEREF _Toc403161034 \h 7
HYPERLINK \l _Toc403161035 6 附件 PAGEREF _Toc403161035 \h 8
引言
随着计算机及网络技术的发展与广泛应用,信息量呈指数增长,知识跟新速度加快,关键词法成为网络信息检索的基本方法之一。据中国互联网信息中的报告显示,用户在查询网络信息时,通过搜索引擎查找相关网站的占百分之七十以上,而基于关键词的网络检索几乎是每个搜索引擎必备的检索途径。
系统设计与实现
2.1 关键词检索系统的特点
关键词是一种用自然语言标识的检索语言。这里讲的自然语言是指从文献题名、文摘、正文中抽提出来能直接表达文献主题概念的、针对性最强的非规范化实意词。关键词的选词基本上取自文献作者的自然用词。
关键词的主要优点是 :
1、标引迅速、容易、方法简便,无须查阅词表,减少了确定检索词、查核词表的工序。
2、由于各同义词都可以标引同一主题概念的文献,对于同一篇文献内抽提出来的 关键词又可轮流作为索引标题,这样,便大大增加了检索 和入口,使得信息检索方便灵活 。
3、使用关键词有利于标引信息资料、编制索引等信息加工过程的计算化,从而可 降低对信息加工人员知识水准的要求,可以节约人力。利用计算机编制关键词索引既可代替人工劳动,又十分迅速。
2.2 关键词检索系统的功能要求
建立一个计算机关键词检索系统应具备以下检索功能:
1、逻辑组配检索,即进行关键词之间以及关键词与其它检索项之间逻辑或、逻辑与及逻辑非组配检索。
2、截词检索,即关键词的前方截断词,后方截断词、前后方截断词和中间截断词的截词检索功能。
3、二次检索,即在第一次关键词检索中的文献集合中,通过关键词在文献题名、文摘、全文中再次进行检索,直至检索命中。
4、自动相关检索,即通过建立在系统内的类同义词库进行同类范畴中的同义词自动检索,使用具有概念等同关系中的任一 同义词检索可以检索命中所有同义词的文献。为此,系统还应提出按分类号排列关键词,并且在同类组中建立同义词库的功能。
5、多途径检索,即系统提供多个检索项进行交叉组配的检索功能。
2.3 关键词检索的基本策略
由于关键词是一种非受控后组式检索语言,在计算机系统中是散列的、平等的,只有在检索软件下进行后组配检索才能发挥作用。因此,关键词检索策略对于系统功能来说是十分重要的。下边就检索策略问题,特别是如何编制检索提问式分述如下。
1、检索时首先根据检索者对课题的检索要求进行主题分析,确定检索课题的各主题因素,如主体因素、通用因素、时间因素、位置因素和文件类型因素等,然后选用各种可能的关键词,尤其注意对表达主体因素的长主题词的切分处理,并充分利用截词检索功能。由于关键词标引存在着较明显的标引用词的不一致性,检索时还应选用尽可能多的相关词进行反馈检索。
2、先从分类号检索,然后再用关键词检索,以保证在尽量查全的基础上,努力提高查准率。
3、关键词与分类号相结合进行交叉组配检索,比单纯用关键词和单纯用分类号检索都要好些。由于关键词具有直观、专指和使用方便的特点,人们往往乐于使用关键词进行直接检索,而忽视与分类号交叉组配检索,孰不知分类语言的系统性和网络性刚好弥补了关键词的分散性,两者结合定会减少误检漏检,提高检索效率。
2.4 主要指标及其分析
搜索引擎的主要指标有响应时间、召回率、准确率、受欢迎程度、建立索引的方法和相关度等。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的,当然这些都需要搜索引擎技术指标来保障。
2.5 系统总体设计
该系统是基于Internet的查询系统。系统是建立在B/S三层结构上,既Browser/Web Server/Database。系统模式图如下图所示。
系统数据流
您可能关注的文档
最近下载
- PLC应用技术(西门子S7-1200)全套教学课件.pptx VIP
- 宿州市市直机关遴选公务员考试真题2024.docx VIP
- GBT 35694-2017 光伏发电站安全规程.pdf
- DB41T 2312-2022 波形钢腹板预应力混凝土组合箱梁桥施工规范.pdf VIP
- 征信简版电子版PDF个人信用报告最新版2024年可编辑带水印模板.pdf VIP
- 胃肠道肿瘤的基因检测与个体化治疗.pptx VIP
- 部编版语文四年级上册第二单元综合素质测评B卷(含答案).pdf VIP
- 《道路深层病害探地雷达无损检测技术规范》DB41 T2525-2023.doc VIP
- 中国儿童幽门螺杆菌感染诊治专家共识(2022) .pdf
- 2021届广东省华师附属高级中学(广州总校)三下学期5月综合测试(三模)文科综合地理试卷无答案.pdf VIP
文档评论(0)