基于文本数据挖掘的硕士论文分类技术.docx

基于文本数据挖掘的硕士论文分类技术.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1分类方法的选取 1.1硕士论文数据的特点 研究生学位论文的摘要和关键词是高度非结构 化的文本数据,具有5个特点:文档特征提取时有大 量 的候选特征、特征语义相关、特征存在多义和同义现象 ’特征分布稀疏、基本线性可分。 1.2支持向量机方法在硕士论文自动分类中的优势 支持向量机以统计学习理论为基础,采用结构 风 险最小化准则设计学习机器,较好地解决了非线性、高维数、局部极小点等问题。支持向量机在本文讨论 的问题中具有以下特点和优势: 1)支持向量机具有坚实的理论基础和严格的推证过程,是针 对小样本空 间进行优化的算法;2)支持向量机采用结构风险最小化准则设计学习机器,折衷考虑经验 风险和置信范 围;3)对于非线性问题,通过非线性 变换转换到高维的特征空间,在高维空间中构造线性判别函数来实现 原空间中的非线性判别函数,巧妙地解决了维数问题;4)支持向量机算法归结为一个凸二次规划问题,从 理论上说,得到的解将是全局 最优解;5)支持向量机通过学习,选择岀只占训练 样本集中部分的支持向 量;6)少数支持向量决定了 最终结果,这不但可以帮助我们抓住关键样本、“剔 除”大量冗余样本,而且 注定了该方法不但算法简 单,而且具有较好的“鲁棒”性;7 )支持向量机参数 的选择影响着支持向量机 的性能。 2硕士论文挖掘的过程 如图1所示,用支持向量机进行文本分类主要 分为4个过程:1)文本预处理;2)文本表示;3)特征 选 择;4)吏用训练集训练文本分类器并对分类器分 类效果进行评估。对收集的文本进行标注,并把标注好的 文本集合分成2部分,一部分作为训练集并 利用分类算法训练分类器,使得分类器能尽量识别 特定类别 的文本特征[另一部分作为测试集来测 试己被训练的分类器的效果。我们可以按一定的规 则划分训练集 和测试集并不断的训练分类器,不断地对分类器进行评估。直到分类器达到我们要求的 效果,比如较高的 准确率。 图I支持向量机进厅硕匕论文分类过程 2 1实验数据的收集与打标 本文的训练集和测试集来源于 1999-2008中国优秀博硕学位论文库。同时收集了某高校计算机专业最 近几年的硕士论文相关数据, 用来分析和统计, 以便供科学研宄者和管理者参考。结合三级学科目录和某 校学科建设规划,本文将计算机学科分为 8个研宄方向:多媒体应用技术、基于网络的计算机应 用技术、 计算机仿真、计算机决策支持系统、计算机 图形图像处理、计算机信息管理系统、人工智能、信息安全。 从中国优秀博硕学位论文库中随机下载 2 000篇左右的博硕士论文,提取岀每篇论文的中文摘 要和 关键词,以.TXT文件的形式保存。人工打标 方式将其分到各个研宄方向中:多媒体应用技术 190篇、基 于网络的计算机应用技术 541篇、计算机仿真246篇、计算机决策支持系统 236篇、计算机图形图象处 理197篇、计算机信息管理系统 183篇、人工智能224篇、信息安全181篇。收集的某 高校计算机专业 最近几年的硕士论文相关数据 450篇:02级45篇硕士论文,03级71篇硕士论 文,04级99篇硕士论文, 05级94篇硕士论文,06级141篇硕士论文。这些数据不参与打标,用来实现自动分类和分析。 22数据预处理 本文研宄对象是中文文本数据,只有当由单个汉字组成的句子转化成词之后,才能进行文本表示,所 以我们需要对中文文本进行分词。本文使用中科 院计算所项目“汉语词法分析系统 ICTCLAS,在此 表 示感谢。在对文本进行分词后,文本就变成了词 集,但是词集中有很多虚词等在文章中仅起到结构作用, 另外还有一些词在整个数据集中岀现频率高 而在每篇文档中岀现概率大致相等的词,对分类来 说作用不 大,我们把这些词合称为停用词 [对于这些词,应该从特征集中去掉。停用词的选取对分类结果准确率 有较大影响。 2. 3文本表示 对训练文档、待分类文档要做的第一件事就是 将它们从一个无结构的原始文本表示为结构化的可 处 理的信息,然后才有可能对这些信息进行分析和处理。目前,在信息处理中,文本有向量空间模型、 语义 网络、框架模型等表示方法。其中,向量空间模 型得到了广泛的应用。本文采用的是向量空间模型 来进 行文本表示。 24特征选取 本文研宄的数据的特征是无结构化,当用特征向量对文档进行表示的时候,特征向量通常会达到几万 维。所以必需降低特征空间的维数,提高分类 的效率和精度。特征选择就是一种有效的降维技术。本文采 用的是信息增益(infomaticn gain E)方法来进行特征选取,对于词条 t和文档类别A用E考察文档类别c 中出现和不出现词条的文档频 数来衡量词条tX寸文档类别c的信息增益。我们采 用如下定义 G a in (t)=—乙 P( q ) k)屮(q) + [P(t)\ P(cFCt)

文档评论(0)

yilinshanzhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档