- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识链知识获取技术实现和应用举例
知识链知识获取技术实现和应用举例
摘要:知识获取是知识链组建的首要目标。文章从技术角度定义了知识链知识获取,介绍了新兴的知识获取技术:数据挖掘、Web挖掘、文本挖掘,并分别结合银行业、电子商务、网络新闻的知识获取案例探讨了三种挖掘技术的应用。
关键词:知识链知识获取 数据挖掘 Web挖掘 文本挖掘
中图分类号: G250.7 文献标识码: A 文章编号: 1003-6938(2012)06-0073-04
1 引言
知识经济和全球化是21世纪的两大特征。企业之间的竞争将主要依靠其聚集、整合和开发各类资源的能力。企业与大学、科研机构、上下游企业甚至竞争对手之间通过知识流动,以实现知识共享和知识创造,这种组织之间的知识流动形成了知识链(Knowledge Chain)[1]。知识链是知识经济时代组织之间合作竞争的新形式,未来的竞争将不再是企业与企业之间的竞争,而是知识链与知识链之间的竞争。
知识链在竞争中取胜的关键在于形成知识优势[2]。一般而言,知识优势的形成路径是从知识获取到知识共享,最后是知识创造。可见,知识获取是知识链知识优势形成的逻辑起点,它使知识链与外部知识网络形成动态沟通,是知识管理活动的基础和前提。通过对近十年知识获取相关文献的梳理后发现,学者对知识获取的研究主要集中在知识管理行为和人工智能技术两个领域。本文从技术角度定义知识链知识获取,集中介绍新兴的知识获取技术:数据挖掘、Web挖掘和文本挖掘,并结合具体的知识获取案例探讨了知识挖掘技术的应用,尝试打通知识管理领域的技术障碍,为我国的知识管理实践提供一个技术解决框架。
2 知识链知识获取技术
知识链知识获取是指将用于问题求解的知识从知识源中抽取出来,并转换成计算机可执行的程序,最终储存到知识链内部的过程。知识链组建的目标就是从外部知识源中获取有用的知识,知识源具有多样性,包括数据库、人类专家、文本文献等。目前尚无通用的知识获取方法,互联网时代的知识获取技术主要是数据挖掘、Web挖掘和文本挖掘。
2.1 数据挖掘技术
数据挖掘(Data Mining)是指从大量随机的、模糊的、未知的数据中提取潜在有用的信息和知识的过程。数据挖掘的目的是从复杂数据中发现相互联系和内在规律,从无知中找出真知,从无序中找出有序,以用于商业分析和科学研究。例如,医学研究成员尝试从成千上万病历中找出某种疾病患者的共同特征,从而为治愈这种疾病提供一些帮助。数据挖掘有一些同名词,如数据开发、知识挖掘、数据采掘等。
相对于传统的数据库查询系统,数据挖掘技术拥有自身明显的优势。首先,数据挖掘不是利用严格的SQL语言来描述,因此可以随机、即时、灵活地使用;其次,数据挖掘过程一般基于统计规律,不一定生成严格的结果集,因此能够对决策提供更优质的信息;最后,数据挖掘不仅可以对数据库原始字段进行查询,还可以在数据的不同层次上进行挖掘。目前正在研制的第四代数据挖掘软件主要特点是将数据挖掘和移动计算相结合,能够挖掘移动系统、嵌入式系统和各类计算设备产生的数据。
数据挖掘质量取决于算法的设计。比较通用的算法包括:主成分分析法、粗糙集法和决策树法。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。它的任务是使数据阵简化,用较少的变量去解释原来数据中的大部分变异。主成分分析法适用于大样本的量化评估分析。粗糙集法的优势是无需提供任何与问题无关的数据,适合发现数据中隐含的有用规律。粗糙集先通过对条件属性的约简,即从决策表中消去某些列,然后消去重复的行和属性的冗余值,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。决策树法则利用一种树形图作为分析工具,用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果。该方法计算损益值,因此常用于风险分析决策。
2.2 Web挖掘技术
Web挖掘是数据挖掘技术在Web技术中的应用,它是指利用数据挖掘技术在Internet上的资源中发现潜在的、有用的信息或模式。与传统数据挖掘不同,Web挖掘的数据以TB数量计算,既有数位型(整型、实型)、布尔型,又有性质描述数据、分类数据还有Web 特有的数据类型,如 url(网页) 地址、E-mail 地址等,因此很难直接对Web网页上的数据进行挖掘,而必须经过必要的数据处理。典型的Web挖掘处理流程如下[3]:
(1)查找资源:从目标Web文档中寻找数据;(2)信息选择和预处理:从取得的Web资源中剔除无用信息,进行必要的分类整理;(3)模式发现:在同一个站点内部或在多个站点之间自动进行模式发现;(4)模式分析:验证、解释上一步骤产生的模式,该任务可由机器单独自动完成,也可与程序人员交互完
文档评论(0)