- 0
- 0
- 约2万字
- 约 6页
- 2019-07-06 发布于湖北
- 举报
面向kms的web信息采集机制探究新
维普资讯
面向KMS的Web信息
采集机制研究
口 林泽斐 /福建师范大学社会历史学院 福建 55001
摘要:Web是知识管理系统 (KMS)信息采集的重要来源之一,但其数据的庞杂无序和半结构化特性给信
息采集工作造成 了一定难度。文章对Web信息采集机制,特别是HTMLS~构特征分析法进行 了探讨,并结合采
集机制研究,以建立企业名录信息库为例,说明采集系统如何最大限度地提高KMS基础信息采集的能力。
关键词:知识管理系统,信息采集,信息提取
知识管理己日益被认为是提高组织竞争力的重 是用各 自不同的格式表示本质上相同或相近的信息,
要手段,知识管理理念的普及促使了以知识获取和 这就需要建立针对信息内容的统一采集、转换机制使
管理为核心的知识管理系统 (KnowledgeManagement 之可以以结构化的方式访问。知识循环体系建立在信
System,KlVlS)的出现。然而当前的各类KMS更加注 息采集基础之上,通过信息采集系统提供的海量结构
重机构内部的知识整合,缺乏有效的组织外部知识积 化信息,KiVIS可以很方便地利用计算机对信息进行
累与采集体系,无法对机构外部知识进行动态的更新 深层次挖掘,从而实现知识的自动积累。
和维护以提升知识管理系统的活力。Web作为一个庞 根据数据的结构化特征划分,gAdS可采集的数
大的分布式超文本文档库,从诞生至今其信息容量呈 据对象可分为四种类型:结构化的内部数据、非结构
爆炸性的增长。如何从Web海量的、半结构化形式的 化的内部数据、结构化的外部数据和非结构化的外部
数据中采集 “稀缺信息”为机构知识管理服务己成为 数据,由于Web数据多呈半结构化或非结构化特性,
机构提高其竞争力的关键,本文将对此进行探讨。 因此本文将重点论述半结构化数据的采集并研究如何
将其转化为结构化信息。
1Web异构信息采集对提升组织知 外部数据是指借助于各种组织外部公开使用的信
识管理水平的影响 息传播媒介,通过整理、选择、过滤、综合后产生的
知识集合。具体的公开传播介质包括:Internet上与机
知识框架根据人们认知程度的不同具体可以划分 构相关的数据资源、公开发行的出版物上记载的与机
为数据、信息、知识三个层次 1]『。数据是原始函数; 构及机构生存环境有关的备类信息,供应链上下游反
信息是数据根据特定的关联性和 目的性组合而成的具 馈的与机构生产经营相关的记录等。
有新内容、新知识的消息;知识则属于智力资本范 异构即来源不同、格式不同、载体不同的非结
畴,是可用于指导行动的信息。在从数据到知识的转 构化或半结构化的数据集合,在组织外部尤其是W_eb
换过程中,由于冗余信息的减少,使得信息总体数量 上存在着大量与机构相关的具有一定采集价值的异构
下降,价值不断增加 。 数据,如网络上公布的以动态网页形式表现的机构信
信息采集在知识的循环过程中解决了数据到信息 息库、众多合作经营厂商或竞争对手网站上公布的机
的转换问题。组织外部数据中存在的数据高度异构、 构动态数据、相关政府部门网站上的最新公告、人才
具有复杂的内在语义、充满多义性且往往 以半结构或 招聘网站的众多人事档案资料等。此类数据由于冗余
非结构化的形式出现,这些数据并不能很好地为人们 数据多 (存在广告、导航条等与内含信息无关的数
所使用。譬如
您可能关注的文档
最近下载
- 《可持续供应链风险识别与管理》.docx VIP
- 冷损伤.ppt VIP
- SA泵性能曲线(三川).pdf VIP
- 2025-2026学年初中物理八年级上册(2024)北师大版(2024·郭玉英)教学设计合集.docx
- 8【倍福PLC中文手册】2024-11-12 TE1010 诊断工具:CPU的实时核占用的图形化显示 TwinCAT3_Realtime Monitor.pdf VIP
- 餐厅服务员培训手册服务员基础知识.doc VIP
- 7【倍福PLC中文手册】2025-07-29 TwinCAT3 TF5060 授权Function:轴组位置序列,先入先出手册 NC FIFO AXES.pdf VIP
- 2000年河北中考语文试题.doc VIP
- 3【倍福PLC中文手册】2025-01-23 EL1409 EtherCAT DI端子模块:经济型,16 通道数字输入,24VDC,3ms,PNP 文件资料.pdf VIP
- 2026年新版物理中考压轴题天津.doc VIP
原创力文档

文档评论(0)