基于文本数挖掘的硕士论文分类技术.docVIP

下载本文档

1
0
约3.93千字
约 6页
2016-12-13 发布于贵州
举报
版权申诉

基于文本数挖掘的硕士论文分类技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　　1分类方法的选取　　1.1硕士论文数据的特点　　研究生学位论文的摘要和关键词是高度非结构化的文本数据，具有5个特点:文档特征提取时有大量的候选特征、特征语义相关、特征存在多义和同义现象特征分布稀疏、基本线性可分。　　1.2支持向量机方法在硕士论文自动分类中的优势支持向量机以统计学习理论为基础，采用结构风险最小化准则设计学习机器，较好地解决了非线性、高维数、局部极小点等问题。支持向量机在本文讨论的问题中具有以下特点和优势：1)支持向量机具有坚实的理论基础和严格的推证过程，是针对小样本空间进行优化的算法;2)支持向量机采用结构风险最小化准则设计学习机器，折衷考虑经验风险和置信范围;3)对于非线性问题，通过非线性变换转换到高维的特征空间，在高维空间中构造线性判别函数来实现原空间中的非线性判别函数，巧妙地解决了维数问题;4)支持向量机算法归结为一个凸二次规划问题，从理论上说，得到的解将是全局最优解;5)支持向量机通过学习，选择出只占训练样本集中部分的支持向量;6)少数支持向量决定了最终结果，这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本，而且注定了该方法不但算法简单，而且具有较好的“鲁棒”性;7 )支持向量机参数的选择影响着支持向量机的性能。　　2硕士论文挖掘的过程　　如图1所示，用支持向量机进行文本分类主要分为4个过程：1)文本预处理;2)文本表示;3)特征选择;4)吏用训练集训练文本分类器并对分类器分类效果进行评估。对收集的文本进行标注，并把标注好的文本集合分成2部分，一部分作为训练集并利用分类算法训练分类器，使得分类器能尽量识别特定类别的文本特征[ 另一部分作为测试集来测试己被训练的分类器的效果。我们可以按一定的规则划分训练集和测试集并不断的训练分类器，不断地对分类器进行评估。直到分类器达到我们要求的效果，比如较高的准确率。　　2 1实验数据的收集与打标　　本文的训练集和测试集来源于1999-2008中国优秀博硕学位论文库。同时收集了某高校计算机专业最近几年的硕士论文相关数据，用来分析和统计，以便供科学研宄者和管理者参考。结合三级学科目录和某校学科建设规划，本文将计算机学科分为8 个研宄方向:多媒体应用技术、基于网络的计算机应用技术、计算机仿真、计算机决策支持系统、计算机图形图像处理、计算机信息管理系统、人工智能、信息安全。　　从中国优秀博硕学位论文库中随机下载2 000 篇左右的博硕士论文，提取出每篇论文的中文摘要和关键词，以.TXT文件的形式保存。人工打标方式将其分到各个研宄方向中：多媒体应用技术 190篇、基于网络的计算机应用技术541篇、计算机仿真246篇、计算机决策支持系统236篇、计算机图形图象处理197篇、计算机信息管理系统183 篇、人工智能224篇、信息安全181篇。收集的某高校计算机专业最近几年的硕士论文相关数据 450篇：02级45篇硕士论文，03级71篇硕士论文，04级99篇硕士论文，05级94篇硕士论文，06 级141篇硕士论文。这些数据不参与打标，用来实现自动分类和分析。　　2 2数据预处理　　本文研宄对象是中文文本数据，只有当由单个汉字组成的句子转化成词之后，才能进行文本表示，所以我们需要对中文文本进行分词。本文使用中科院计算所项目“汉语词法分析系统ICTCLAS”，在此表示感谢。在对文本进行分词后，文本就变成了词集，但是词集中有很多虚词等在文章中仅起到结构作用，另外还有一些词在整个数据集中出现频率高而在每篇文档中出现概率大致相等的词，对分类来说作用不大，我们把这些词合称为停用词[ 对于这些词，应该从特征集中去掉。停用词的选取对分类结果准确率有较大影响。　　2. 3文本表示　　对训练文档、待分类文档要做的第一件事就是将它们从一个无结构的原始文本表示为结构化的可处理的信息，然后才有可能对这些信息进行分析和处理。目前，在信息处理中，文本有向量空间模型、语义网络、框架模型等表示方法。其中，向量空间模型得到了广泛的应用。本文采用的是向量空间模型来进行文本表示。　　2 4特征选取　　本文研宄的数据的特征是无结构化，当用特征向量对文档进行表示的时候，特征向量通常会达到几万维。所以必需降低特征空间的维数，提高分类的效率和精度。特征选择就是一种有效的降维技术。本文采用的是信息增益(infomaticn gain E) 方法来进行特征选取，对于词条t和文档类别^用 E考察文档类别c中出现和不出现词条的文档频数来衡量词条tX寸文档类别c的信息增益。我们采用如下定义　　(1试中：P(q)表示q类文档在语料中出现的概率;P(t)表示语料中包含词条t的文档的概率; P(cs|