- 5
- 0
- 约3.08万字
- 约 39页
- 2019-02-19 发布于上海
- 举报
Abstract摘
Abstract
摘 要
K-近邻是基于统计的分类方法。K.近邻算法是数据挖掘分类算法中比较常 用的一种方法,其基本思想是:给一篇待识别的文章,系统在训练集中找到 最近的K个近邻,看这K个近邻中多数属于哪一类,就把待识别的文章归为 哪一类。
K.近邻分类器是基于懒惰学习方法的,因为它实际并没有(根据所给训练 样本)构造一个分类器,而是将所有训练样本首先存储起来,当要进行分类 时,临时进行计算处理。与积极学习相比,当训练样本或者测试样本数目迅 速增加时,就会导致K.近邻的计算量迅速增加。所以,它比积极学习方法的 速度慢得多,但是,就分类准确性而言,懒惰学习是有着很大优势的。
本文利用了近邻思想的准确性高的优势,同时针对它在分类速度上的不 足,特提出了渐进式的文本分类思想。利用文本的标题、关键词、重点段落、 全文进行渐进式的分类处理。这样,如果不用全文就能分类成功,就大大提 高了文本分类的速度,从而也就达到了我们提高文本分类效率的目的。实验 数据表明,该方法具有较高的分类效率和准确率。 关键词K一近邻;渐进式思想;文本分类
AbstmctAbstract
Abstmct
Abstract
K-NN is a method of classifying based on statistics.K-Nearest neighbor algorithm is a kind of common methods in data mining.Its basic idea like this: When there is a discriminating article,the system want to find K nearest neighbors in the exercise set,And then we should find out the class that the most of these K
nesrest neighbors belonging to.So the article belongs to this class.
K—NN,algorithm is a kind of indolent study means as it doesn’t make real classifier.It is only save all the exercises at first,then picks them out to compute at time when classifying.Compare to active study,when the numbers of the exercise samples increasing straightforward,it will take more and more time to
compute.So as to the speed,is more slowly than active study.But flS to study,it has dominant position than active study.
This article takes advantage of the predominance of the K—NN’S in the nicety. At the SalTle time,it contraposes the shortage of the K—NN’S in the rate.Then this article puts forward the gradual thinking.When classifying,it uses the text’S title、
keywords、many important paragraphs、whole text step by step.If we classify successfully by using hereinbefore information,then we enhance the rate of the text classifying.The data from experiments indicate that this methord has higher
rate and nicety in classifying.
Keywords:K‘nearest neighbor;Gradual thinking;Text mining
第l章绪论第l章绪论
第l章绪论
第l章绪论
1.1国内外在该方向的研究现状
数据挖掘(Data Mil3ing,简称DM),简单地讲就是从大量数据中挖掘或 抽取出知识,又称为数据库中知识发现(Knowledg
您可能关注的文档
- 江苏省计量科学研究院业务管理系统规划与设计-工业工程专业论文.docx
- 江苏省计量院苏州实验室质量管理体系的建立与改进研究-工业工程专业论文.docx
- 江苏省加快发展B2B电子商务的策略研究-情报学专业论文.docx
- 江西省计量测试研究院综合管理数据平台建设研究-管理学专业论文.docx
- 江西省技术创新效率评价及问题智能诊断研究-技术经济及管理专业论文.docx
- 江苏省监狱系统警务技能培训的执行现状-体育教育训练学专业论文.docx
- 江西省技术性贸易壁垒风险评价体系研究-国际贸易学专业论文.docx
- 江苏省建设集团公司管理信息化规划研究-工商管理专业论文.docx
- 江西省暨大岗山森林生态系统服务功能研究-生态学专业论文.docx
- 江西省甲型病毒性肝炎流行病学现状及重点地区甲肝疫苗强化免疫流行病学效果研究-公共卫生专业论文.docx
- 生成式AI在高中生物教学中的应用与教师教育观念变革分析教学研究课题报告.docx
- 初中英语教师数字能力评价结果反馈在英语听说教学中的应用实践教学研究课题报告.docx
- 考虑服务者时间约束的志愿者服务智能调度算法设计课题报告教学研究课题报告.docx
- 高中化学有机化学基础与工业应用联系课题报告教学研究课题报告.docx
- 高中地理教学中地理信息技术的教学评价体系构建与实践教学研究课题报告.docx
- 《金融市场波动对企业汇率风险管理策略的影响与应对措施研究》教学研究课题报告.docx
- 高中化学课程中食品防腐剂检测实验的教学情境创设课题报告教学研究课题报告.docx
- 小学科学教学中探究式学习与实验教学整合研究课题报告教学研究课题报告.docx
- 小学数学教学中数学游戏设计与逻辑思维能力训练课题报告教学研究课题报告.docx
- 初中英语演讲中逻辑思维培养与内容与语言整合学习的课题报告教学研究课题报告.docx
最近下载
- 煤的介绍课件.pptx VIP
- 部编人教版9年级下册《道德与法治》全册课件.pptx
- 官方通用文本离婚协议书 2026年.docx VIP
- 结构力学仿真软件:SAP2000:SAP2000中的材料属性设置.pdf VIP
- 2025WHO脑膜炎指南解读.pptx
- 老年人胆囊结石诊断和治疗专家共识(2026版).pptx VIP
- 普通党员2025年度组织生活会围绕“五个方面”查摆问题50条和整改措施供参考.docx VIP
- 如何开一家废品回收站?.docx VIP
- 2026年河南水利与环境职业学院单招职业适应性测试题库含答案详解.docx VIP
- 小学常用单词分类汇总国标手写斜体英语字帖(含例句).pdf VIP
原创力文档

文档评论(0)