基于特征词Web领域知识分类研究.docVIP

下载本文档

3
0
约4.91千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于特征词Web领域知识分类研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于特征词Web领域知识分类研究

基于特征词Web领域知识分类研究　　摘要摘要：Web环境下，领域知识对于构造面向互联网的领域知识间的知识图谱具有重要意义，然而网络数据的杂乱无序使学习者难以快速准确全面地获取其中的领域知识。针对该问题，提出一种基于特征词的Web领域知识文本分类方法，以特征词为特征，利用支持向量机（SVM）作为基本分类算法。实验表明，该方法具有良好的准确率和召回率，能有效地从数据中分类出含有领域知识的数据，为面向Web的领域知识后续研究奠定基础。　　关键词关键词：领域知识；知识图谱；文本分类；支持向量机　　DOIDOI：10.11907/rjdk.1511351 　　中图分类号：TP301 　　文献标识码：A文章编号文章编号2016）002000903 　　0引言　　随着Internet的迅猛发展和日益普及，互联网上存储的领域知识呈几何级增长，然而互联网上的数据大部分是无序的，用户难以从这些无序的数据中快速、准确、全面地获取有序的领域知识[1]。因此，对互联网中杂乱的数据进行文本分类，可以在很大程度上解决信息杂乱的问题，发掘包含领域知识的数据，对于构造面向互联网的领域知识间的知识图谱具有重要研究意义[2]。例如，从句子“微积分及其后续发展被称为分析学”中可以发现其中含有“微积分”和“分析学”两个概念，而且在知识图谱中“微积分”的后续发展是“分析学”，表明两者存在一定的理论关联，为学习者学习和理解“分析学”提供理论支持。针对这一问题，本文提出面向Web的基于特征词的领域知识分类方法，从Web数据中获取具有包含领域知识的数据，作为发掘领域知识、构造领域知识图谱的技术基础。　　1研究综述　　随着网络资源的不断丰富，面向Web的文本分类研究日益获得广泛关注[3-4]。传统的针对网上海量信息的文本分类方法主要是人工分类并加以组织和整理。然而，利用人工分类的传统方法存在诸多弊端，如人力、物力、精力耗费大，且分类结果一致性不高[5]。目前，文本分类的一般技术过程如下：首先，对非结构化的文本数据进行预处理，以结构化的形式表示文本，即所谓的特征表示；其次，进行特征选择，挑选出最能代表文本内容的特征项，以降低特征向量空间维数；然后，利用训练文档集构造并训练分类器；最后，使用所构造的分类器对新文本进行分类处理[6]。李荣陆[9]结合当前文本分类研究，将最大熵模型应用到文本分类研究。文献[10]利用深度信念网络从文本中抽取特征，并利用softmax回归分类器对抽取后的特征进行分类，实验表明利用深度信念网络实现文本分类具有良好的性能。刘怀亮[11]提出了基于知网语义相似度的文本相似度加权算法，并对该算法进行中文文本分类实验，结果表明，相较于传统的文本相似度，该方法在文本分类性能上有所提高。文献[12]提出了将维基百科中构成领域实体的典型字或词作为种子元素，利用少量种子元素作为实体发现的初始知识，将构建出的领域实体知识应用于文本分类，表明实体知识在文本分类中的有效性。然而，已有方法主要是对如何有效地对文档分类进行研究，少有将文本分类应用于领域知识挖掘及作为领域知识图谱构造基础的研究。因此，本文提出一种基于特征词的Web领域知识文本分类方法，以特征词为特征，利用支持向量机（SVM）作为基本分类算法。实验结果表明，基于特征词的Web领域知识文本分类方法具有良好的效能，能够有效实现领域知识文本分类。　　2领域知识文本分类　　2.1特征词词典构建　　领域知识[13]（Domain Knowledge）指“在某一领域内的概念，概念之间的相互关系以及有关概念的约束的集合（D’Hondat，1986）”。本文研究目的在于有效地将领域知识从数据中进行分类，以此作为领域知识图谱构造的技术基础。例如在“解析几何为以后微积分的诞生奠下良好的基础”中，“解析几何”、“微积分”都属于领域知识；同时两者在知识图谱中是先有“解析几何”后有“微积分”，即“微积分”的基础是“解析几何”，则“基础”属于特征词。本文采用词频统计和人工挑选相结合的方法来构建特征词词典。部分特征词如表1所示。　　2.2特征词权重计算　　特征词的权重表示了其在文档中的重要程度。在一个文本中，对属于特征词词典中的词赋予较高的权重，反之则赋予较低的权重。本文采用TFIDF方法作为特征加权方法。TFIDF方法利用特征词的词频（TF）和反文档频率（IDF）两个因素计算特征词的权重。对于文档di中，特征词tj的权重计算如式（1）所示。　　TFIDF（di，tj）=TF（di，tj）×IDF（di，tj）　　=TF（di，tj）×log（|D|DF（tj））（1）　　其中，TF（di，tj）表示特征词tj在当前文本di中出现的频率，|D|表示文本总数，DF（t