- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义网文本分类系统设计与实现
基于语义网文本分类系统设计与实现
[摘要]研究基于语义网的文本分类问题,结果表明,SOM神经网络的文本分类可以在降低时间和空间复杂度的基础上,提高分类准确度,从而为文本处理环境下的实时分类提供良好的实现算法。
[关键词]文本自动分类 自组织映射 混乱度 神经网络
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0920073-01
语义Web是把已经比较成熟的逻辑主义人工智能具体应用在Web这个领域,即用本体来进行Web上的知识表现(knowledge representation)[1]。文本分类属于机器学习的一个分支。因此,许多经典的机器学习算法都被引入到文本分类中来。文本分类方法通常可以分为两类:统计方法与规则方法。
一、基于模式聚合方法和KNN的改进
本文提出基于SOM神经网络的改进方法,具体步骤如下:
1.建立原始特征空间,选择原始特征(初等模式)。
2.运用上述改进的CHI方法进行初步特征选择和模式聚合。
3.按下述方法建立在新的特征空间中各个文本的向量表达:设新的特征空间为m维,原始特征空间为n维,每个文本首先构成原始n维向量,计算特征词的特征值,然后对于新特征空间的每一维的特征值由原始特征空间对应维的特征值相加得到。
4.以SOM对文本集或者特定子集进行训练。
5.对于维数权重计算,采用以下办法:对各个类别的特征向量的各个分量各自求其方差,设“为样本维数,函数var()为方差计算函数,T*J表示有所有的类别特征向量的第J维构成的n维向量,则各维的权重系数为:
6.如果文本类别数过多,可以采用快速的筛选策略选择K个最相似样本,比如使用淘汰赛算法,就可以使选择的时间代价从O(n2)下降到O(klog(num))。
为减少文本过高维数对SOM时间复杂度的影响,也为了避免噪声或者无关属性对SOM计算结果精确度的影响,本文首先运用CHI概率统计方法进行初步特征提取和模式聚合。此方法优点如下:一次性完成各维属性权值计算,克服原有方法逐个测算属性灵敏度和重新训练神经网络的高昂时间代价,同时避免BP网络的诸多缺点,适合于文本此类维数高达成千上万维的情况,也可在其中进一步选择若干关于分类的重要属性,以降低KNN方法的计算量;对类别特征向量进行权重计算也避免了直接对样本集进行权重计算容易受样本集数量及其空间分布影响的缺陷。
二、实验分析
(一)数据
训练语料库使用了北京大学计算语言学研究所与富士通公司开发的、经人工分词和词类标注的《人民日报》熟语料库BF-PD986(1998年1月~6月),共57M汉字。在确定词分类方法的相关参数时,我们采用部分学者的典型工作中所涉及的人工分类的待分类词,他们选择了85个通用名词作为考察对象(之所以选择名词,是因为名词的语义分类对语言计算、信息检索等十分重要,同时最具开放性,属于该范畴的新词大量涌现,使得分类问题更加突出)。为了便于比较,仍尽可能选取这些词作为待分类词的集合,只不过由于其中的“倒爷”未在本文的训练语料库中出现,“摊贩”、“桌球”的词频也很低,所以我们对待分类词集做了少许调整:以“小贩”、“台球”替代“倒爷”、“桌球”,将“非洲”加入“地区”类中以补足85个词。并对85个人工分类待分类词,SOM自动分类的结果以精确率P、召回率R及F-measure予以评价。类别k的精确率和召回率如下计算(k=1,…,7):
(二)结果分析
本文选取了11115个特征词中的2560个词为例,经过计算,得到所有特征词在各个类别下的x2值矩阵(5218×12),经过程序测算和图形分析,其最大值为1395.58,但是80%的值小于0.4541,90%的值小于4.8309,为了滤噪和将各初等模式对分类贡献的分布曲线标准化,根据实际情况λ=90%。首先对低于预设阈值的特征词进行过滤,即特征提取,删除低于某个阈值的特征词条不会提高错误率,因而可以认为阈值的选择如果设定在合理的范围内,对于最后降维空间维数影响较小,即降维空间维数对于此阈值不敏感,变化范围在3%左右;这个测算结果表明对于本文本集而言对分类作出较大贡献的特征大约就在376到570个之间。具体测算结果如表1所示:
存储样本和分类运算所需空间在文本数确定的情况下,与特征空间维数成正比,因此与原始特征空间维数对比关系也就是两种方法的空间代价对比。本文采用1.035作为预设阈值进行特征词初步过滤,在此基础上,表2测算特征词对分类贡献的统计指标。
从表1,2可看到,在本文本集中约有40%的特征词只对某一个分类有贡献,即只在一个分类中出现;只对1个和2个分类有贡献的特征词占特征词总数的7成,加上只对3类有贡献的特
您可能关注的文档
最近下载
- DB62T 4899-2024 梨品种 早玉DB62T 4899-2024 梨品种 早玉.docx VIP
- 《中医九种体质介绍》课件.pptx VIP
- 新解读《GB_T 17491-2023液压传动 泵、马达 稳态性能的试验方法》最新解读 (1).pptx VIP
- DB62_T 5143-2025 肃南马鹿DB62_T 5143-2025 肃南马鹿.docx VIP
- 行政事业单位财务人员2025年上半年个人工作总结.pdf VIP
- 2024山东临沂市工会社会工作专业人才招聘(20人)笔试备考试题及答案解析.docx VIP
- 初级信息流考试题及答案.doc VIP
- 土壤修复方案-(2)(完整版).doc VIP
- 安防监控使用说明书.doc VIP
- 国内脱硫石膏用利现状.doc VIP
原创力文档


文档评论(0)