基于粗糙集理论的文本自动分类研究-计算机应用技术专业论文.docxVIP

下载本文档

0
0
约12.17万字
约 118页
2019-02-22 发布于上海
举报
版权申诉

基于粗糙集理论的文本自动分类研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

南京理工大学博士学位论文南京理工大学博士学位论文基于辊糙集理论的文本自动分类研究摘要文本自动分类是目前信息检索和自然语言处理领域的研究热点之一。九十年代以后，机器学习方法逐步广泛应用于文本自动分类。基于机器学习的文本自动分类是一个非常复杂的信息处理任务，目前仍然面临着许多亟待解决的难题。本文将针对文本自动分类涉及的几个主要问题进行比较深入的研究和探索。具体研究内容和创新性研究成果概括如下： (1)基于N-gram的中英文文本表达方法。文本表达是指将表达文献主题内容的词汇抽取出来的过程。常用的向量空间表达法主要采用TF／IDF等权重法。该类权重法普遍存在两大缺点：一是需要计算词汇在整个数据集中频率，标引效率较低；二是不能直接应用于中文等东方语种文献。否则，必须首先解决分词技术问题。本文的研究成果是提出了一种不需要进行中文分词，且不依赖文本数据集，能够同时适宜于中英文文献的文本表达方法。该方法的主要创新点包括：提出了基于N-Gram的GF／GL权重法，能够根据单篇文献中各个N-gra珥的出现频率和长度计算它们表达文献主题内容的重要性；提出了根据文献N-gram权重值和子父串关系筛选文献关键词的算法。该算法不需要复杂的参数定义，能够灵活控制文献标引深度和标引专指度。实验结果表明，本文提出的文本表达方法能够获得比TF／IDF更优的标引性能。 (2)标引词的语义异构性处理。通过文本表达获得的标引词，通常是没有进行语义规范控制的自由词。如果直接将这些标引词作为特征项输入文本自动分类算法，会直接导致计算时间复杂度的增加和分类性能的降低。人工方法和经典相似度计算方法是目前建立标引词语义转换关系的主要方式。本文的研究成果是提出了一种基于粗糙集理论和索引语言理论的标弓I 词语义转换模型，可以用于建立来源于多个索引语言的标引词之间的语义关系，解决标引词的语义异构性问题。该模型的优点表现在：克服了人工转换方法成本高、效率低的缺点；克服了经典相似度计算方法单向性和不能明确定义标引词之间语义关系的缺点；能够快速有效地实现多个索引语言在不同兼容水平上的标引词语义双向转换；能够较大范围地集成具有语义关系的标引词，克服特征抽取方法受限于数据集的缺点。该方法既可用于文本表达结果的规范控制，也可用于文献检索系统中多种索引语言的自动语义集成，从而实现应用单种索引语言进行跨数据库检索。 (3)粗糙集理论在文本自动分类中的应用问题研究。决策树、神经网络、摘要摘要博士论文支持向量机和贝叶斯等机器学习方法已经广泛用于文本自动分类。产生于 20世纪八十年代初的粗糙集理论是一种处理模糊和不确定性知识的数学工具。租糙集理论的最大特点在于从知识分类的角度分析概念之间、分类对象之间和属性之间的关系。基于粗糙集理论的分类系统一般不需要相关数据集合外的任何先验知识，通过知识约简等简单操作便可以推导出易于理解和验证的分类规则。因此，从理论上讲，租糙集理论在大规模文本自动分类任务中应该具有良好的应用前景。本文的研究成果是设计了一个基于粗糙集理论的文本自动分类方案。创新性研究工作主要包括：提出了一种可以简单有效自动识别同义词的方法；提出了一种新型的特征项重要性计算方法和属性约简算法，以确保特征项选择在全局和局部都达到最优化；提出了一种能够在尽可能保证分类准确度的情况下，提高规则匹配能力的上下近似规则生成算法和一系列规则匹配方法；提出了一种能够根据输入新文献与分类规则的匹配状态自动扩展新类别的方法，避免了频繁维护训练集和更新分类规则的难题。实验结果表明，本文设计的分类系统可以获得比较令人满意的性能。通过进～步完善，可以推广应用于提供分类服务的各类文献信息检索系统。关键词z文本表达关键词抽取粗糙集理论语义异构性分类算法文本自动分类分类规则机器学习 Ⅱ 南京理工大学博士学位论文南京理工大学博士学位论文基于粗糙集理论的文本自动分类研究 Abstract Automatic text categorization(ATC)is presently one of the hottest research issues in information retrieval and natural language processing．Since 1990’s machine learning approaches have been popularly appfied in ATC．A1though they have achieved better performance than traditional ones，t}ley still