开放域多源知识的自动生成.docx

下载文档

8
0
约4.78千字
约 6页
2017-01-05 发布于重庆
举报
版权申诉
保障服务

开放域多源知识的自动生成.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开放域多源知识的自动生成

开放域多源知识的自动生成基于深度学习知识自动发现知识表示知识存储知识检索显性知识隐性知识自动获取知识需求知识发现与整合流程图知识发现是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。知识发现将信息变为知识，从数据矿山中找到蕴藏的知识金块，将为/view/451655.htm知识创新和知识经济的发展做出贡献。基本任务：数据分类、数据聚类、衰退和预报、关联和相关性、顺序发现、描述和辨别、时间序列分析典型的知识发现技术包括：或然性和最大可能性估计的/view/77778.htm贝叶斯理论、衰退分析、最近邻、决策树、k-means方法聚类、/view/1076817.htm关联规则挖掘、Web和搜索引擎、数据仓库和联机分析处理(On—line Analytical Processing，OLAP) 、神经网络、遗传算法、模糊分类和聚类、粗糙分类和规则归纳等。1）、基于开放知识的自动获取（wiki、教材、常识、知道、百科）对于如WIKI、教材、常识、知道、百科等显性开放知识的获取相对容易，只需对已有线性化知识进行知识表示、知识存储和检索即可。2）、知识框架与知识发现的对偶迭代计算模型。对偶迭代模型即利用现有规则对开放域资源进行知识的自动生成，然后根据生成的知识反推规则，反复迭代，最终形成稳定有效的新规则，以此规则应用于新知识的发现。模型如下：原始规则知识新规则新知识知识发现对偶迭代模型原始规则：决策树方法( Decision Tree)决策树方法就是利用训练集生成一个测试函数，根据不同取值建立树的分支; 在每个分支子集中重复建立下层结点和分支，这样便生成一棵决策树。然后对决策树进行剪枝处理，最后把决策树转化为规则，利用这些规则可以对新事例进行分类。这种方法实际上是根据信息论原理对数据库中存在的大量数据进行信息量分析，在计算数据特征的互信息的基础上提取出反映类别的重要特征。典型的决策树方法有分类回归树( CART) ， ID3， C4??5 等。在信息缺乏完整时，决策树方法可能漏掉有价值的规则。决策树方法主要用于分类挖掘。贝叶斯分类( Bayesian Network)贝叶斯分类是一种利用概率统计知识进行分类的方法，可以预测一个未知类别的样本属于各个类别的可能性，并选择其中可能性最大的一个类别作为该样本的最终类别。贝叶斯分类的理论基础是贝叶斯定理。神经网络方法( Neural Network)神经网络方法的原理是模拟人脑的神经元结构，以MP模型和HEBB 学习规则建立起前馈式网络、反馈式网络和自组织网络3 大类多种神经网络模型，以求达到模拟人类的形象直觉思维的目标。它是在生物神经网络研究的基础上，根据生物神经元和神经网络的特点通过简化、归纳、提炼总结出来的一类并行处理网络。神经网络利用其非线性映射的思想和并行处理的方法，用神经网络本身结构可以表达输入与输出的关联知识。它通过不断学习、调整网络结构，最后以特定的网络结构来表达输入空间与输出空间的映射关系，是一种通过训练来学习的非线性预测模型，可以完成分类、聚类、特征挖掘等多种数据挖掘任务。遗传算法( Genetic Algorithms)遗传算法是一种较新的非线性优化技术。它基于生物进化理论中的基因重组、突变和自然选择等概念设计一系列的过程来进行问题的搜索，最终达到优化的目的。这些过程包括基因组合、交叉、变异和自然选择。遗传算法作用于对某一特定问题的一组可能的解法，试图通过基因组合、交叉、变异过程来组合或“繁殖”现存的最好的解法来产生一个新的解集，然后利用基于“适者生存”的理论的自然选择方法来使较差的解法被抛弃，使繁殖的结果得到改善，从而产生更好的解集。遗传算法具有计算简单、优化效果好的特点，它在处理组合优化问题方面也有一定的优势，可用于聚类分析等。模糊逻辑模糊数学研究的是“亦此亦彼”的模糊性。模糊数学是继经典数学、统计数学之后，在数学上的又一新的发展。针对一个问题，复杂性越高，有意义的精确化能力就越低。模糊性是客观存在的，当数据量越大而且复杂性越大时，对它进行精确描述的能力越低，就是说模糊性越强。在数据挖掘领域，模糊逻辑可以进行模糊综合判别、模糊聚类分析等。最近邻技术( Nearest Neighbor)这种技术通过K 个最与之相近的历史记录的组合来辨别新的记录，有时也称K- 最近邻方法。这种技术可以用于聚类、偏差分析等挖掘任务。关联规则在数据挖掘的知识模式中，关联规则模式是比较重要的一种。关联规则发现是指通过对数据库中的数据进行分析，从某一数据对象的信息来推断另一数据对象的信息，寻找出重复出现概率很高的知识模式，常用一个带有置信度因子的参数来描述这种不确定的关系。IF-THEN 规则是由一系列