百科实例的分类算法探究.docVIP

下载本文档

0
0
约5.76千字
约 12页
2022-12-23 发布于山东
举报
版权申诉

百科实例的分类算法探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

百科实例的分类算法研究大纲：在互联网信息爆炸的时代，百科成为了互联网用户获取可信构造化信息的首选门路，但是，现有的百科文档的不规范、看法系统的不健全，造成了相当一大多数百科文档没能纳入现有看法系统，影响了知识系统的构造和再生。文章以百度百科作为研究对象，采纳基于信息框属性的分类算法，以及基于相关实体的分类算法对百度百科中的未分类文档进行分类，实验表示，两种算法都拥有较高的分类正确率，联合两种算法能覆盖除部分只有标题信息的绝大多数未分类文档，所以，能对百科实例的分类问题给出较好的解答。要点词：百科；分类；信息框；相关实体前言自互联网出生以来，人类所面对的信息就体现着爆炸式的增加。但是，面对着浩如烟海的海量信息，人类反而显得不知所从。搜寻引擎出现了，搜寻引擎经过要点词提取及信息检索技术，帮助互联网用户迅速地找到信息。但是，这其实不可以完好满足互联网用户的需求，因为互联网信息常常是非构造化的――用户想获取的信息常常以不一样的方式散落在互联网的各个角落――而为了获取这些完好的信息，用户不得不翻阅很多网页，花销大批的时间和精力从这些信息中提拿出实用的知识。如何有效、规范地定义并描述互联网的实体，以构造化的方式组织互联网上的知识，使得互联网上的知识可以有效地交融，就显得尤其迫切而重要。百科作为互联网知识的经典表现形式，借助其开放性，互联网的百科文档成为了众多互联网用户获取知识的首选路径。但是，正是因为其开放性，互联网百科文档体现出了诸多不规范性：如看法系统的不完好，分类系统的不健全，实质上，目前互联网百科文档中有相当一大多数并无获取适合的分类，而这造成的结果是，一方面，对实例自己的描述不全面，另一方面，形成知识的孤岛，没法将实例文档融入现有的知识系统，也难以基于该实例文档推导出新的知识。所以，如何在现有百科的开放系统下，解决百科文档看法系统不完好的问题，从而构造富裕活力的知识生态，就显得尤其重要。所以，文章将以国内最大的中文知识库――百度百科为例，研究如何为未适合注明类其余百科文档增添类型标签，以健全现有百科文档的知识系统。问题定义百科文档平时体现半构造化的形式，百科文档平时由若干个相对规范的部分构成，即标题、类型、信息框、大纲、相关实体、正文等。所以可以用以下的六元组来表征百科文档。 d={title，catogories，infobox，abstract，link，essay} 受实验数据限制，在本实验中，正文项缺失，所以，文章所商讨的百科文档可以仅表示为以下的五元组。 d={title，catogories，infobox，abstract，link} 此中，信息框平时为一系列“键-值”对所构成，即信息框可以表示为对的会集： Infobox={（key1，value1），（key2，value2），（keyn， valuen）} 不如将此中的键所构成的会集称为keysetd。其余，因为百科分类系统的不规范，同一个百科文档通常会被归为多个不一样的类型，所以，类型字段平时也是一个组合，即由若干类标签构成的组合。 catogories={c1，c2，，cn} 相同，同一个百科文档平时会与多个实体相关系，所以，相关实体字段也可以表示为一个会集，此中的每一个元素为一个百科文档中的实体，即： link={ent1，ent2，...，entn}；文章将商讨如何将百度百科中未分类的实例归到 12个根类型中，即艺术、技术、文化、生活、地理、社会、人物、经济、科学、历史、自然、体育。所以，将百科的文档的根类型定义为label，其取值在上述的十二个根类型中间。注明的百科文档为“文档-标签”对，即： ld={d，label}；所以，可以将文章研究的百科文档分类问题定义为，寻找函数映照关系f，使得给定一个已注明的百科文档会集 LdSet以及另一未注明的百科文档d，输出文档的类型属性l； f：→l 也可以将该分类过程形式化为两个阶段：第一阶段，给定一个已注明的百科文档会集，训练出一个模型；第二阶段，给定一个未分类的百科文档，基于训练出来的模型即输入文档，输出该文档的类型属性，即： f1：LdSet→Model f2：→l 下边，我们将对本章形式化的问题进行求解，并对求解的方法进行评测。方法描述实质上，在本实验中，初始的数据其实不是在上一章中所描述的注明文档集以及未注明文档，而是一个混杂的文档集合--即该文档包含有类型属性的文档和没有类型属性的文档。此中，有类型属性的文档平时其类型会集不包含根类型，而这些文档中有一部分包含根分类的后辈类型属性，所以，基于百科的看法系统可以挂靠到根类型下，别的一部分文档则没有类型属性，也许是其类型属性不在现有的百科的看法体系中，所以没法挂靠到根类型下，而这正是文