信息资源组织基础.pptVIP

  • 1
  • 0
  • 约9.03千字
  • 约 43页
  • 2026-02-05 发布于湖北
  • 举报

搜索引擎搜索引擎(SearchEngines)是对互联网上的信息资源(主要是网页)进行搜集整理,然后提供查询服务的系统,通常包括信息搜集、信息整理和用户查询三部分,但提供给用户的往往只是一个查询界面。两类搜索服务GoogleYahoo/sundae_meng网络信息资源的挑战数量巨大没有一个搜索引擎能够覆盖万维网的16%网站;所有搜索引擎加起来覆盖了万维网的42%极端异质信息值不同长度不同语法或输入错误内容错误、过时或不可靠多种格式多语种速度问题每分钟需要接受15,000~20,000次查询请求/sundae_meng数字化信息量举例音乐作品(莫扎特):约100MB报纸(华尔街杂志):100MB/年(文本)卡片目录(美国国会图书馆):17GB广播(WABC):270GB/年(未经压缩)网络论坛(Netnews):300GB/年地区图书馆(加州大学图书馆):1.4TB(图书扫描版)Internet出版(WWW):1997年约4TB电视(CNN新闻):1GB/1小时,6TB/年(经压缩)录像带出租(BlockbusterVideo):9TB科研图书馆(美国会图书馆):全部图书馆数字化20TB 来源:美国伯克利加州大学教授PeterLyman和AlexInternet公司总裁BrewsterKahle所著《文化制品数字化存档行动纲要》。/sundae_meng信息检索的问题查找非结构信息有困难多数数据库在结构化字段上工作多数商业信息是非结构化的.报告、电子邮件、来往公函...美国商业每年产生4500亿份文件波音747文件比飞机重量还重索引是主观的索引者之间不一致,经验统计表明索引者之间仅20%相同.作者与索引者之间、检索者与用户之间不一致.信息超载信息太多,需要过滤检索结果垃圾太多,有害信息太多/sundae_meng拖曳网搜索引擎仅在信息海洋表面上拖曳来源:曾民族先生的有关报告/sundae_meng深海网来源:曾民族先生的有关报告/sundae_meng深海网深海网比浅海网大500倍95%深海网是公开的和可免费获取的深海网内容质量高1000+倍7,500TB信息量目前有45,000浅海网搜索引擎/sundae_meng信息资源组织成为全球性难题信息发布具有自由性和任意性,难于控制和管理分布、分散、无序、无政府、经常变动、无限数量、包罗万象、真伪并存,资源信息和非资源信息难于驾御非规范、非结构检索查全和查准提出新的挑战多媒体、多语种、多类型信息的整合提出新的挑战跨国界数据传递和流动,带来政治、外交、文化新问题集成多种(正式和非正式等)交流方式/sundae_meng目前对付挑战的能力有限以文本信息、显性知识为主以非结构信息为主以系统为中心 以信息提供为目的以相对简单的信息技术开发 以正面效益为衡量标准 /sundae_meng第三章

课程的内容框架结构:

信息资源组织模型/sundae_meng信息资源组织系统抽象模型(课程框架)知识单元特征提取特征建库(索引)资源库提问单元提问处理语义特征:分类/主题/自由词/元数据语用特征载体类型学科内容应用领域狭义/传统知识组织(内容管理)广义/现代知识组织利用方法读者图书馆员结果处理读者特征数字化数字图书馆/sundae_meng课程内容信息资源组织的方法分类法主题法元数据方法知识本体方法信息资源组织的应用情报检索数字图书馆(内容管理)(企业)知识管理/sundae_meng**符号/数据/信息/文献/知识/智慧/精神文献一词,在我国最早见于《论语·八佾(音yì,古代乐舞的队列)》,那时对文献的认识是包括历代的历史文件和当时的贤者。事隔数千年,我们现在的理解与古代不一样,根据我国国家标准《文献著录总则》下的定义是:“记录有知识的一切载体(供记录信息符号的物质材料,称之为载体材料)”。这就是说,所谓文献,是指文字、图像、符号、声频、视频等作为记录手段,将信息记录或描述在一定的物质载体上,并能起到存贮和传播信息情报和知识作用的一切载体。这种载体,除了常见的纸张外,还包括甲骨、金石、竹帛以及胶片、磁带、光盘等。智慧是一种超发散的,非确定性的,非或然的过程。它需要全部的已有的意识层次,并且是特殊类型的人的规划。它能使以前非懂的东西重新理解,是哲学探通术的本质。****目录又称书目(似乎含义就狭窄了很多),“它是著录一批相关文献,按照一定次序编排组织而成的一种揭示和

文档评论(0)

1亿VIP精品文档

相关文档