网站大量收购独家精品文档,联系QQ:2885784924

数字文本自动分类中特征语义关联及加权策略研究综述与展望.pdf

数字文本自动分类中特征语义关联及加权策略研究综述与展望.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字文本自动分类中特征语义关联及加权策略研究综述与展望

总第274 期 2016 年 第9 期 数字文本自动分类中特征语义关联及加权 策略研究综述与展望* 李湘东 1,2 巴志超1,3 高 凡 1 1(武汉大学信息管理学院 武汉 430072) 2(武汉大学信息资源研究中心 武汉 430072) 3( 山东省科学院情报研究所 济南 250014) 摘要: 【目的】探讨目前针对书目、题录信息以及新闻网页、博客等新兴媒体开展的数字文本自动分类研究中 存在的主要问题和可能的解决方向。【文献范围】基于机器学习方法的自动分类研究领域中, 关于特征语义转换、 特征扩展和加权策略等方面的主要研究成果及相关文献。【方法】按照主要研究、关键技术、现有成果水平和今 后发展方向等方面进行分析归纳。【结果】针对特征语义转换、特征扩展和加权策略等研究领域, 分析问题的现 象和原因, 指出当前研究在文本语义表示、各种知识库的利用等方面存在的不足。【局限】没有涉及分类过程中 分类算法等其他比较成熟的研究领域。【结论】今后可以从向量空间模型与概率主题模型相结合、利用各种外部 知识库并提高概念相似度计算能力、结合多种加权策略构建复合加权表示模型等方向开展分类研究, 以提高数 字文本自动分类的性能。 关键词: 自动分类 特征语义关联 特征语义转换 特征扩展 加权策略 分类号: TP391 G35 建等基本环节。其中, 分词、预处理和文本表示是信 1 基于机器学习文本自动分类概述 息检索、主题分析、聚类以及分类等以文本为主要研 基于机器学习文本自动分类的基本原理是通过对 究对象的相关研究中都需要事先解决的问题, 已有学 现有分类体系及其已分类文本(称为样本、训练文本、 者专门对其进行研究, 且取得比较成熟的研究成果。 训练集文本或训练集)的内容进行统计学习, 以掌握各 特征相关处理环节中, 主要是针对特征选择方法的研 个类别的知识或模式, 形成分类模型或分类器, 然后 究, 其和分类算法的研究在分类研究中都比较成熟。 将其作用于待分类文本(也称为测试集文本或测试集, 然而, 随着对书目信息、新兴媒体等分类对象的文本 与训练集共同构成语料库), 根据待分类文本的内容与 特 性 认 识 的 深 入 , 以 及 基 于 向 量 空 间 模 型(Vector 从训练集获得的模式进行比较来确定其类别。目前 , Space Model, VSM)、LDA(Latent Dirichlet Allocation) 基于机器学习自动分类的主要对象是图书书目信息或 概率主题模型等文本表示模型等相关分类环节的进一 期刊论文题录信息(简称书目信息), 新闻网页、博客、 步研究, 发现单纯地依靠传统的词频统计且忽略特征 微博等新兴媒体的各种数字文本资源。 之间的语义关系, 不能很好地提高最终的分类性能 , 基于机器学习的分类过程主要包括语料库整理、 而考虑文本以及特征之间的同义、冗余和蕴涵等语义 分词、预处理、特征相关处理、文本表示、分类器构 关系, 借助外部知识库、语义词典等对特征进行关联 通讯作者 : 李湘东 , ORCID: 0000-0001-9031-8482, E-mail: xli_xiao@ 。 *本文系国家社会科学基金项目“多种类型文本数字资源自动分类研究”(项目编号 : 15BTQ066)的研究成果之一。 XIANDAI TUSHU QINGBAO JISHU 17 综述评介 扩充、语义建模等, 能有效改善文本分类性能。同时, 方法的改进已经不能满足对分类性能进一步提高的需 在通过特征选择方法进行特

您可能关注的文档

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档