科技文献检索实用教程第3章_计算机信息检索基础教材教学课件.pptVIP

科技文献检索实用教程第3章_计算机信息检索基础教材教学课件.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业论文毕业设计开题报告论文报告设计报告可行性研究报告

第3章 计算机信息检索基础; 3.1 计算机化的文献信息源 3.1.1 文献的载体和媒体——信息、情报和知识的依托 文献信息的载体除了物理的以外,还有逻辑的载体,即用什么符号或文字表达文献信息。为了与真实的载体区别,人们把字符之类的信息载体称为“媒体”或“媒质”(media)。 (1)信息媒体的种类 信息媒体是信息传播的形式,它们有符号、文字、声音、图像、动画等。 信息可从一种载体或媒体转移到另一种不同的载体或媒体上。信息必然始终附于某种“壳”(shell),即使是在转移过程中也是如此。 (2)信息在空中的传播媒介 空中传播的无线电广播电视信号,是将视频图像信号调制到载波(射频)频率上,利用地球磁场,把信号送到千家万户。; ;电视接收机收到信号后,经过高频头进行高频放大,再经过变频和3级中频放大,最后经过鉴频取出视频和音频信号。 图3.2是图文电视信号的发送原理。 可知,对于在空中传输的广播电视信号或图文电视信号而言: ◆载体:电磁波。 ◆媒体:电视信号制式。 ◆内容:电视节目或图文信息。 ◆情报:你热衷于收看的节目内容。 ◆知识:从情报中你得到了解的事物的规律性的东西。 结论:信息无论何时何地,即使在传输过程中,时时刻刻都不能离开物质载体和逻辑媒体。;图3.2 图文电视信号的数据包插入广播电视信号中的位置; 总之,文献必然有载体和媒体,在其上必然承载信息内容,在信息内容中才可能含有情报(如果对人有用或有趣)或知识(如果有真实反映客观现实事物规律的东西存在的话)。文献的结构如图3.3所示。 ;3.1.2 符号、文字、声音、图像、动画的特点比较 作为多媒体的信息载体,文字、符号、声音和图像在传递信息上有着许多截然不同的特点。 (1)符号 符号最不直观,或最“抽象”,你可用一个极怪异的符号代表一种只有你自己才知道的含义。 (2)文字 文字则以其“永久”构成人类文明的历史。其表达信息的能力可以“明察秋毫”到无与伦比的程度。 (3)声音 声音表达信息的细节最为丰富,使用面最广。 (4)图形和图像 图形化的“语言”给人们带来丰富多彩的感受。; (5)动画 动画的交互性强,比其他媒体更有吸引力。动画作为一种交流手段,有着特有的表现形式和优点。 3.1.3 计算机化的文献信息源——ASCII码和汉字内码 美国标准信息交换代码(ASCII)用8个位(bit)来表示一个ASCII码,构成一个字节(byte),因此一个字节就是信息、实质上是文献信息的最小构成单位。 汉字国标码是用2个字节表示的双7位编码,其内码实质上就是用扩展ASCII码字符集中的2个ASCII码。 汉字输入码属于外码。不同的输入方法,形成了不同的汉字外码。常见的输入法有以下4类: ①按汉字的排列顺序形成的编码(流水码):如区位码。; ②按汉字的读音形成的编码(音码):如全拼、简拼、双拼、搜狗等。 ③按汉字的字形形成的编码(形码):如五笔字型、郑码等。 ④按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC。 常见的汉字编码有3种,即GB码(又称“国标码”,相当于我国的“ASCII”码,流行于我国大陆及新加坡,含简体汉字6763个);BIG5码(又称“大5码”,流行于我国港澳台地区,含繁体汉字13 000个);HZ码(海外华人中曾流行)。 3.1.4 GBK汉字内码扩展规范 (1)GBK标准简介 GBK是新的汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification,中国信息技术标准化技术委员会1995年12月1日制订,确定为技术规范指导性文件。; (2)编码特点 GBK 也采用双字节表示,编码范围为8140-FEFE。总计23 940个码位,共收入21 886个汉字和图形符号。 全部编码分为3大区域:汉字区、图形符号区和用户自定义区。 (3)GBK的应用 在基本操作环境方面,微软公司自Windows 95简体中文版始,系统采用GBK代码。从浏览器IE 4.0开始,简体、繁体中文版内部提供了一个GBK-BIG5代码双向转换的功能。 微软公司为Internet Exporer提供的语言包中,简体中文支持的两种字库宋体、黑体,也是GBK汉字(珠海四通电脑排版系统开发公司提供)。其他一些中文字库生产厂商,也开始提供TrueType或PostScript GBK字库。 许多外挂式的中文平台,如南极星、四通利方(Richwin)等,提供GBK码;(2)文书文本 第二类是文章编辑软件,如WPS或Word编辑的文本,这种文本允许较多的字体字号选择,并产生一些如“软回车”之类的用于自动排版的控制符。 (3)排版文本 第三类文本应当是桌面排版系统或桌面印刷系统文本(如北大方正或国外流行的Pagemaker),它们采用

您可能关注的文档

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档