基于改进 KNN 分类算法的文本分类关键技术研究与实现-计算机应用技术专业论文.docxVIP

  • 5
  • 0
  • 约5.59万字
  • 约 82页
  • 2019-02-20 发布于上海
  • 举报

基于改进 KNN 分类算法的文本分类关键技术研究与实现-计算机应用技术专业论文.docx

创新性声明 本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西安电 子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究工作所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文若有不实之处,本人承担一切相关责任。 本人签名: 日期: 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本 人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电 子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校 可以公布论文的全部或部分内容,可以允许采用影印、缩印或其他复制手段 保存论文。 (保密的论文在解密后遵守此规定) 本学位论文属于保密在 年解密后适用本授权书。 本人签名: 日期: 摘 摘 要 摘 要 随着信息处理技术和计算机网络的普及,Internet 上的 Web 页面数量呈指数增 长,为了快速、方便地处理这些信息,Web 文本自动分类技术应运而生,并且已 经成为信息检索和文本数据挖掘领域的一个研究热点。 结合在企业竞争情报系统中的应用,本文提出了新的特征选择函数并且对 KNN 算法做了改进,具体的工作如下: (1) 介绍了文本挖掘中所用到的主要关键技术,包括:中文分词技术、文本的 特征表示、文本的特征选择、分类技术、聚类技术,以及一些性能评估方 法。 (2) 介绍了 KNN 算法的步骤、优缺点,着重介绍了两方面的改进方法。第一个 改进特征选择函数,引入词频、文档频、信息熵等元素后,信息选择函数 对词的重要性有较好的区分度,既有较好的类内代表性,又有较好的类间 区分度。第二个改进的是 KNN 分类算法,根据 KNN 分类算法常常遇到的 问题,提出了对样本空间的裁剪方法,不但提高了精度,又减少了时间复 杂度。 最后,在前面研究的基础上,根据所做的项目课题,将改进的 KNN 算法应用 于企业竞争情报系统中,取得了较好的结果。 关键词:文本分类 KNN 特征选择函数 最大类内空间 Abs Abstract Abstract With the popularization of information process techniques and computer network, Web pages on the Internet is rising at the rate of index. In order to quickly and easily to deal with this information, The Web text classification technology came into being, and has become a research hotspot in the field of text data mining and information retrieval technology. With the application in Enterprise Competitive Intelligence System, this paper made the following improvements for the problems of KNN: This paper introduces the key technology in the process of text classification, including: Chinese Word Segmentation, Text Feature Description, Text Feature Selection, Text Classification, Text Cluster and some performance evaluation methods. This paper introduces the process, advantage and disadvantage of KNN classification algorithm, and then places the emphasis on the two points. The first one is to improve the feature selection function. Bringing term frequency, document frequency and information entropy, f

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档