- 4
- 0
- 约4.3万字
- 约 53页
- 2019-02-20 发布于上海
- 举报
苎王丝垒塑塞查旦垫坌鲞翌壅——摘要
苎王丝垒塑塞查旦垫坌鲞翌壅——
摘要
随着因特网的迅猛发展,大量的信息朝着人们扑面而来,如何管理好所得 到的信息的问题变得越来越突出,对文本进行分类管理是人们经常采用的一种 文件管理方法。
本文提出了一个基于概念的自然语言文本自动分类模型,该模型以《知网》 为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原, 并在可分义原组成的向量空间进行文本分类。该模型概述如下:文本分类系统 分为训练模块和分类模块,义原分为可分义原和不可分义原,文本在经过预处 理后,按一定规则提取出关键词,对有岐义的关键词,根据其词性和上下文对 对其进行概念排岐,根据关键词所表示的概念在《知网》中的定义,把关键词 分解成义原,并将不可分义原剔除,从而把文本表示成可分义原向量空间中的 一个向量。在训练集中的文本均表示成向量空间的文本之后,训练集中相似的 向量在向量空间中会形成文本聚类。对于将要进行分类的文本,亦按上述的方 法将其表示为一向量,并在训练集中找出k个与其距离最近的邻居的类别作为 该文本的类别。实验表明,该模型相对于基于关键词的文本分类方法有更好的 召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。
f本文在三个方面提出了新的思想:第一,首先提出把义原分类为可分义原 和不可分义原,并提出分类的原则和方法。这种分类方式可以实现在进行文本
分类时,获取概念中最重要的领域特性。第二,虽然现有文献提出用概念来表
示文本,但这种概念的表示方式都基于同义词的,把概念分解到义原更能反映
出概念的本质和概念之间的相关性,采用义原来表示文本则更反映出文本所要 表达的中心意思。第三,首先把概念排岐引入到文本分类中,并提出一种新的
概念排岐算法。/e
关键词:文本分类文本表示kNN知网召回率精确率义原可分义原
向量空间向量/
第l页
董三塑查些苎查!垫坌鲞堕窒——ABSTRACT
董三塑查些苎查!垫坌鲞堕窒——
ABSTRACT
Wi th the rapid growth of Internet.10ts of information surges toward us.1t has been an urgent problem oil how to manage a11 the information we have gotten. Text Categorization(TC)is an important method man usually use to deal with this
probIem.
This paper proposes a new automatic natural language text categorization module based on concept.This module takes How—Net as the main source of know/edge,
the concepts of words as the basis of text categorization.The concepts of words are reduced to sememes and the TC is performed in the Classfiable Sememe Vector Space(CSVS).The TC module can be summarized as below:the TC system is divided into two parts:training part and categorization part.Sememes are divided into c lassfiable sememes and unclassfiable sememes.Keywords are extracted from the
text after it has been preprocessed.The keywords are disambiguated according to their parts of speech and context.The concepts of keywords are then reduced to sememes according to their definitions in How—Net.As a result,the text is represented as a vector in the CSVS after removing a11 unclassfiable sememes.The simi far texts form a cluster in the CSVS.For
您可能关注的文档
- 基于概率灵敏度技术的钢结构螺栓节点性能研究-结构工程专业论文.docx
- 基于概率论和证据理论的RBDO方法研究-工业工程专业论文.docx
- 基于二氧化锰纳米片构建的功能性纳米材料与性能研究-应用化学专业论文.docx
- 基于服务型政府视域下的行政伦理建设问题探讨-行政管理专业论文.docx
- 基于服务型制造的汽车零部件供应商服务博弈及优化研究-管理科学与工程专业论文.docx
- 基于服务型制造的陕汽集团供应链优化研究-工业工程专业论文.docx
- 基于服务需求的自动测试技术研究-计算机软件与理论专业论文.docx
- 基于服务业的质量功能展开应用研究-技术经济及管理专业论文.docx
- 基于服务业模块化组织的组织间学习研究-企业管理专业论文.docx
- 基于服务营销的我国商业银行效率的实证研究-国际贸易专业论文.docx
- 中国国家标准 GB/T 6675.9-2025玩具安全 第9部分:化学及类似活动的实验玩具.pdf
- 《GB/T 6675.9-2025玩具安全 第9部分:化学及类似活动的实验玩具》.pdf
- GB/T 46975-2025婴童用品 便携式婴儿睡篮技术要求.pdf
- 中国国家标准 GB/T 46975-2025婴童用品 便携式婴儿睡篮技术要求.pdf
- 《GB/T 46975-2025婴童用品 便携式婴儿睡篮技术要求》.pdf
- 《GB/T 6675.14-2025玩具安全 第14部分:指画颜料要求和测试方法》.pdf
- GB/T 6675.14-2025玩具安全 第14部分:指画颜料要求和测试方法.pdf
- 中国国家标准 GB/T 6675.14-2025玩具安全 第14部分:指画颜料要求和测试方法.pdf
- 中国国家标准 GB/T 33772.3-2025质量评定体系 第3部分:印制板及层压板最终产品检验及过程监督用抽样方案的选择和使用.pdf
- 《GB/T 33772.3-2025质量评定体系 第3部分:印制板及层压板最终产品检验及过程监督用抽样方案的选择和使用》.pdf
原创力文档

文档评论(0)