- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息收集处理.doc
UML
Unified Modeling Language (UML)又称统一建模语言或标准建模语言,是始于1997年一个OMG标准,它是一个支持模型化和软件系统开发的图形化语言,为软件开发的所有阶段提供模型化和可视化支持,包括由需求分析到规格,到构造和配置。 面向对象的分析与设计(OOAD,OOAD)方法的发展在80年代末至90年代中出现了一个高潮,UML是这个高潮的产物。它不仅统一了Booch、Rumbaugh和Jacobson的表示方法,而且对其作了进一步的发展,并最终统一为大众所接受的标准建模语言。
文献检索(Information Retrieval)是指根据学习和工作的需要获取文献的过程。宋代朱熹认为“文指典籍,献指熟知史实的贤人”[1],近代认为文献是指具有历史价值的文章和图书或与某一学科有关的重要图书资料[2],随着现代网络技术的发展,文献检索更多是通过计算机技术来完成。狭义的检索(Retrieval)是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。这里的文献集合,不是通常所指的文献本身,而是关于文献的信息或文献的线索。
广义的检索包括信息的存储和检索两个过程(Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。[4]
文献检索语言是一种人工语言,用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。因其使用的场合不同,检索语言也有不同的叫法。例如在存储文献的过程中用来标引文献,叫标引语言;用来索引文献则叫索引语言;在检索文献过程中则为检索语言。检索语言按原理可分为3大类:
它是将表达文献信息内容和检索课题的大量概念,按其所属的学科性质进行分类和排列,成为基本反映通常科学知识分类体系的逻辑系统,并用号码(分类号)来表示概念及其在系统中的位置,甚至还表示概念与概念之间关系的检索语言。 《中国图书馆图书分类法》是我国图书分类法的基础,中图法把一切知识门类按五分法分为马列、毛泽东思想;哲学;社会科学;自然科学;综合性图书这五大部类。在此基础上建成由22个大类组成的体系系列。
是指经过控制的,表达文献信息内容的语词。主题词需规范,主题词表是主题词语言的体现,词表中的词作为文献内容的标识和查找文献的依据
指从文献内容中抽出来的关键的词,这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化,也不需要关键词表作为标引和查找图书资料的工具。
指文献中出现的任意词。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
第二步:抓取存储
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
第三步:预处理
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
提取文字
中文分词
去停止词
消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)
5.正向索引
6.倒排索引
7.链接关系计算
8.特殊文件处理
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
第四步:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。
利用算法将文件有损或无损地处理,以达到保留最多文件信息,而令文件体积变小。压缩文件的基本原理
您可能关注的文档
- 使用WinAPI实现Windows下异步串口通讯.doc
- 使用Windows“录音机”录制、编辑声音.doc
- 使用windows自带分区工具实现磁盘大小重新划分无损数据.doc
- 使用Win创建串口通讯程序.doc
- 使用word中的目录功能.doc
- 使用《千千静听》的“转换格式”将MP音频转换为OGG音频.doc
- 使用串行口编程方法.doc
- 使用代理教程.doc
- 使用代码生成器的详细步骤.doc
- 使用数据库张国华.doc
- 2024年沧州市公务员考试行测真题及答案详解(名师系列).docx
- 粮油食品检验人员复习提分资料带答案详解(精练).docx
- 粮油食品检验人员自我提分评估(考点精练)附答案详解.docx
- 粮油食品检验人员全真模拟模拟题附参考答案详解(精练).docx
- 2025年延安市公务员考试行测试卷历年真题附答案详解(突破训练).docx
- 2025年株洲市公务员考试行测试卷历年真题含答案详解.docx
- 2024年枣庄市公务员考试行测真题及完整答案详解1套.docx
- 2024年抚顺市公务员考试行测真题及答案详解(各地真题).docx
- 2025年常州市公务员考试行测真题及一套参考答案详解.docx
- 2023年德州市公务员考试行测试卷历年真题及1套完整答案详解.docx
最近下载
- 实验室安全和保证人员健康程序.docx VIP
- 2025四川攀枝花市第十二中学校直接考核招聘编外艺体培训导师20人笔试备考试题及答案解析.docx VIP
- 课程思政教学竞赛说课稿《电机与电气控制技术》.pptx VIP
- 检查更换油井油嘴.ppt
- 人教版三年级数学下册思维训练应用题(含答案).pdf VIP
- GB 10068-2008 轴中心高为56 mm及以上电机的机械振动.pdf
- 国企招聘党群岗笔试试题及答案.pdf VIP
- 00015-英语二-第三单元课后答案及参考译文.docx VIP
- 2024年云南省《辅警招聘考试必刷500题》考试题库附完整答案.pdf VIP
- 4s店财务经理述职报告7篇.docx
文档评论(0)