信息收集处理.docVIP

下载本文档

6
0
约7.7千字
约 7页
2015-08-09 发布于湖北
举报
版权申诉

信息收集处理.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息收集处理.doc

UML Unified Modeling Language (UML)又称统一建模语言或标准建模语言，是始于1997年一个OMG标准，它是一个支持模型化和软件系统开发的图形化语言，为软件开发的所有阶段提供模型化和可视化支持，包括由需求分析到规格，到构造和配置。面向对象的分析与设计(OOAD，OOAD)方法的发展在80年代末至90年代中出现了一个高潮，UML是这个高潮的产物。它不仅统一了Booch、Rumbaugh和Jacobson的表示方法，而且对其作了进一步的发展，并最终统一为大众所接受的标准建模语言。文献检索(Information Retrieval)是指根据学习和工作的需要获取文献的过程。宋代朱熹认为“文指典籍，献指熟知史实的贤人”[1]，近代认为文献是指具有历史价值的文章和图书或与某一学科有关的重要图书资料[2]，随着现代网络技术的发展，文献检索更多是通过计算机技术来完成。狭义的检索（Retrieval）是指依据一定的方法，从已经组织好的大量有关文献集合中，查找并获取特定的相关文献的过程。这里的文献集合，不是通常所指的文献本身，而是关于文献的信息或文献的线索。广义的检索包括信息的存储和检索两个过程(Storage and Retrieval)。信息存储是将大量无序的信息集中起来，根据信息源的外表特征和内容特征，经过整理、分类、浓缩、标引等处理，使其系统化、有序化，并按一定的技术要求建成一个具有检索功能的数据库或检索系统，供人们检索和利用。而检索是指运用编制好的检索工具或检索系统，查找出满足用户要求的特定信息。[4] 文献检索语言是一种人工语言，用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。因其使用的场合不同，检索语言也有不同的叫法。例如在存储文献的过程中用来标引文献，叫标引语言；用来索引文献则叫索引语言；在检索文献过程中则为检索语言。检索语言按原理可分为3大类：它是将表达文献信息内容和检索课题的大量概念，按其所属的学科性质进行分类和排列，成为基本反映通常科学知识分类体系的逻辑系统，并用号码（分类号）来表示概念及其在系统中的位置，甚至还表示概念与概念之间关系的检索语言。《中国图书馆图书分类法》是我国图书分类法的基础，中图法把一切知识门类按五分法分为马列、毛泽东思想；哲学；社会科学；自然科学；综合性图书这五大部类。在此基础上建成由22个大类组成的体系系列。是指经过控制的，表达文献信息内容的语词。主题词需规范，主题词表是主题词语言的体现，词表中的词作为文献内容的标识和查找文献的依据指从文献内容中抽出来的关键的词，这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化，也不需要关键词表作为标引和查找图书资料的工具。指文献中出现的任意词。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。第一步：爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。第二步：抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。第三步：预处理搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。提取文字中文分词去停止词消除噪音（搜索引擎需要识别并消除这些噪声，比如版权声明文字、导航条、广告等……） 5.正向索引 6.倒排索引 7.链接关系计算 8.特殊文件处理除了HTML 文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash 这类非文字内容，也不能执行脚本和程序。第四步：排名用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。利用算法将文件有损或无损地处理，以达到保留最多文件信息，而令文件体积变小。压缩文件的基本原理