基于关键词组合向量模型的文本自动分类研究.docVIP

  • 3
  • 0
  • 约3.42千字
  • 约 8页
  • 2017-05-10 发布于浙江
  • 举报

基于关键词组合向量模型的文本自动分类研究.doc

基于关键词组合向量模型的文本自动分类研究

基于关键词组合向量模型的文本自动分类研究   [摘要]本文描述了一种新的基于关键词组合模式的文本向量空间表示模型,相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以 计算 的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这种模型的自动文本分类系统,包括分类系统的结构、特征提取、文本相似度计算公式,并给出了评估 方法 。   [关键词]关键词组合向量空间自动分类分类算法      近年来,以文本格式存储的海量信息出现在Internet、数字化图书馆及公司的Intranet上,如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重要目标,而文本自动分类系统能够在给定的分类模型下,根据文本的 内容 自动对文本分门别类,从而更好地帮助人们组织及挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的 研究 方向之一。   一、自动分类的种类和作用   自动分类就是用计算机系统代替人工对 文献 等对象进行分类,一般包括自动聚类和自动归类。自动聚类和自动归类的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集,分类系统先通过训练文集 学习 分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文

文档评论(0)

1亿VIP精品文档

相关文档