面向kms的web信息采集机制探究新.pdfVIP

  • 0
  • 0
  • 约2万字
  • 约 6页
  • 2019-07-06 发布于湖北
  • 举报
面向kms的web信息采集机制探究新

维普资讯 面向KMS的Web信息 采集机制研究 口 林泽斐 /福建师范大学社会历史学院 福建 55001 摘要:Web是知识管理系统 (KMS)信息采集的重要来源之一,但其数据的庞杂无序和半结构化特性给信 息采集工作造成 了一定难度。文章对Web信息采集机制,特别是HTMLS~构特征分析法进行 了探讨,并结合采 集机制研究,以建立企业名录信息库为例,说明采集系统如何最大限度地提高KMS基础信息采集的能力。 关键词:知识管理系统,信息采集,信息提取 知识管理己日益被认为是提高组织竞争力的重 是用各 自不同的格式表示本质上相同或相近的信息, 要手段,知识管理理念的普及促使了以知识获取和 这就需要建立针对信息内容的统一采集、转换机制使 管理为核心的知识管理系统 (KnowledgeManagement 之可以以结构化的方式访问。知识循环体系建立在信 System,KlVlS)的出现。然而当前的各类KMS更加注 息采集基础之上,通过信息采集系统提供的海量结构 重机构内部的知识整合,缺乏有效的组织外部知识积 化信息,KiVIS可以很方便地利用计算机对信息进行 累与采集体系,无法对机构外部知识进行动态的更新 深层次挖掘,从而实现知识的自动积累。 和维护以提升知识管理系统的活力。Web作为一个庞 根据数据的结构化特征划分,gAdS可采集的数 大的分布式超文本文档库,从诞生至今其信息容量呈 据对象可分为四种类型:结构化的内部数据、非结构 爆炸性的增长。如何从Web海量的、半结构化形式的 化的内部数据、结构化的外部数据和非结构化的外部 数据中采集 “稀缺信息”为机构知识管理服务己成为 数据,由于Web数据多呈半结构化或非结构化特性, 机构提高其竞争力的关键,本文将对此进行探讨。 因此本文将重点论述半结构化数据的采集并研究如何 将其转化为结构化信息。 1Web异构信息采集对提升组织知 外部数据是指借助于各种组织外部公开使用的信 识管理水平的影响 息传播媒介,通过整理、选择、过滤、综合后产生的 知识集合。具体的公开传播介质包括:Internet上与机 知识框架根据人们认知程度的不同具体可以划分 构相关的数据资源、公开发行的出版物上记载的与机 为数据、信息、知识三个层次 1]『。数据是原始函数; 构及机构生存环境有关的备类信息,供应链上下游反 信息是数据根据特定的关联性和 目的性组合而成的具 馈的与机构生产经营相关的记录等。 有新内容、新知识的消息;知识则属于智力资本范 异构即来源不同、格式不同、载体不同的非结 畴,是可用于指导行动的信息。在从数据到知识的转 构化或半结构化的数据集合,在组织外部尤其是W_eb 换过程中,由于冗余信息的减少,使得信息总体数量 上存在着大量与机构相关的具有一定采集价值的异构 下降,价值不断增加 。 数据,如网络上公布的以动态网页形式表现的机构信 信息采集在知识的循环过程中解决了数据到信息 息库、众多合作经营厂商或竞争对手网站上公布的机 的转换问题。组织外部数据中存在的数据高度异构、 构动态数据、相关政府部门网站上的最新公告、人才 具有复杂的内在语义、充满多义性且往往 以半结构或 招聘网站的众多人事档案资料等。此类数据由于冗余 非结构化的形式出现,这些数据并不能很好地为人们 数据多 (存在广告、导航条等与内含信息无关的数 所使用。譬如

文档评论(0)

1亿VIP精品文档

相关文档