面向中文网络百科的本体学习与知识获取研究-信息安全专业毕业论文.docxVIP

下载本文档

2
0
约13.52万字
约 133页
2019-05-11 发布于上海
举报
版权申诉

面向中文网络百科的本体学习与知识获取研究-信息安全专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究生优秀毕业论文西南交通大学西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用本学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于 1．保密口，在年解密后适用本授权书； 2．不保密囤，使用本授权书。 (请在以上方框内打“√”) 争r 位舵姗作糍签奄县指导老师签名：何戈飞一N 日瑚艮西沁嗜m 冶日期：刃烨．／『．纩万方数据西南交通大学博士学位论文创新性声明本人郑重声明：所呈交的学位论文，是在导师指导下独立进行研究工作所得的成西南交通大学博士学位论文创新性声明本人郑重声明：所呈交的学位论文，是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均己在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的创新点如下： 1、针对中文网络百科数据特点，结合共现分析和语义分析挖掘开放分类之间的上下位关系，设计了一种最亲近生成树算法将上下位关系转化为概念层次结构。为完善概念层次结构，提出了多种概念层次结构语义相似性度量方法，并设计了聚类算法将具有语义相似性的概念层次结构聚类与合并。通过开放分类权重计算的方法获取百科条目与开放分类之间的实例关系，从而形成分类词汇表和分类文本集，使部分开放分类和百科条目从原有无序、平面化结构形成具有语义关系的知识库。 2、针对中文网络百科信息中存在属性重复、稀疏、不统一且不能清晰体现类别特征的问题，通过频繁模式挖掘和关联分析从百科分类文本集中获取属性词语，为类别建立统一的属性集。采用白扩展和词语语义相似度计算提取属性触发词，并利用属性触发词自动获取属性值抽取模式。采用基于层次聚类的模式筛选方法提高模式质量，从文本中抽取属性值，建立了由类别、实例、属性和属性值共同组成的领域本体层级知识体系。 3、针对弱监督关系抽取框架下由于训练数据存在噪声、特征不足或不平衡而导致关系抽取性能不高的问题，提出了NF—Tri—training弱监督关系抽取方法，该方法使用欠采样解决样本不平衡问题，并将数据编辑技术与Tfi—training算法融合，通过从未标注数据中获取训练数据并对训练数据进行编辑，提高弱监督关系抽取的性能。 4、针对部分一整体关系训练语料匮乏问题，采用无监督学习方法获取部分一整体关系，首先设计相应算法从文本集中自动挖掘出概念对和概念对上下文模式，再基于分布性假设，构建概念对和概念对上下文模式的分布式语义模型，进而利用协同聚类算法和逻辑回归模型将概念对聚类，并识别出表达部分一整体关系的聚类簇。与单边聚类和传统模式匹配方法相比，该方法具有较好的性能。学位论文作者签名：颧日期：矽f够年It月沈日万方数据西南交通大学博士研究生学位论文西南交通大学博士研究生学位论文第1页摘要对大数据进行研究和分析，将大数据转化为信息和知识对于知识工程和信息网络安全领域都具有重要的科学价值和实际意义。本体知识库是自动问答、决策支持、语义搜索等应用的基础，然而本体知识库的构建费时耗力。中文网络百科是通过广大网络用户协作方式创建的网络大数据，是群体智慧的产物，其潜在用户数约占世界人口的四分之一，为大规模、协作式本体学习与知识获取提供了比较理想的资源和环境。本文针对中文网络百科进行分析，研究适用于中文网络百科特点的本体学习与知识获取方法，为从中文网络百科大数据中挖掘海量概念和关系提供理论依据和算法。主要研究内容分为四个部分： (1)分类关系与实例关系获取：通过对开放分类进行共现分析和语义分析获取开放分类间的上下位关系，并将其转化为开放分类概念层次结构。针对概念层次结构数量较多问题，提出概念层次结构聚类方法，将具有语义相似性的层次结构聚合。利用开放分类概念层次结构计算开放分类之间的相似度，在此基础上计算开放分类的权重，根据开放分类的权重获取百科条目与开放分类之间的实例关系，建立海量分类词汇表。在互动百科数据集上进行实验表明，与代表性方法相比，本文提出的本体学习方法在性能上有明显提高。 (2)属性关系获取：将属性值看做命名实体，从百科文本集中挖掘频繁k元模式，通过对k元模式进行关联分析获取候选属性词语，再借助语义资源去除重复的候选属性词语，为类别建立统一的属性列表。针对每个类别属性，采用bootstrapping方法获取属性触发词，根据触发词从文本集中挖掘属性值抽取模