- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
研究生 大数据技术)报告
题 目: 第 27 组- 基于 KNN文本分类分析
学 号
姓 名
专 业 计算机技术
指 导 教 师
院系、所) 计 算 机 学 院
填表注意事项
一、 本表适用于攻读硕士学位研究生选题报告、学术报告,攻读
博士学位研究生文献综述、选题报告、论文中期进展报告、学术报
告等。 b5E2RGbCAP
二、 以上各报告内容及要求由相关院 系、所)做具体要求。
三、 以上各报告均须存入研究生个人学籍档案。
四、 本 表 填 写 要 求 文 句 通 顺 、 内 容 明 确 、 字 迹 工 整 。
1 / 16
研究背景
1.1 研究背景以及现实意义
随着 Internet 的迅速发展,现在处于一个信息爆炸的时
代,人们可以在网络上获取更多的信息,如文本、图片、声音、
视频等,尤其是文本最为常用和重要。因此文本的分类在发现有
价值的信息中就显得格外重要。文本分类技术的产生也就应运而
生 , 与日 常 生 活 紧 密 联 系 , 就 有 较 高的 实 用 价 值 [1] 。
p1EanqFDPw
文本分类的目的是对文本进行合理管理,使得文本能分门别
类,方便用户获取有用的信息。一般可以分为人工 [2] 和自动分
类。人工分类是早期的做法,这种方式有较好的服务质量和分类
精度,但是耗时、耗力、效率低、费用高。而随着信息量以惊人
的速度增长,这种方式就显得很困难,所以需要一种自动分类的
方式来代替人工分类;自动分类节省了人力财力,提高准确力和
速度。 DXDiTa9E3d
1.2 国内外研究现状
国外对于文本分类的研究开展较早, 20 世纪 50 年代末,
H.P.Luhn[3] 对文本分类进行了开创性的研究将词频统计思想应
用于文本分类, 1960 年, Maro 发表了关于自动分类的第一篇论
文,随后, K.Spark ,GSalton , R.M.Needham, M.E.Lesk 以及
2 / 16
K.S.Jones 等学者在这一领域进行了卓有成效的研究。目前,文
本分类已经广泛的应用于电子邮件分类、电子会议、数字图书
馆] 、搜索引擎、信息检索等方面 [4] 。至今,国外文本分类技术
在以下一些方面取得了不错的研究成果。 RTCrpUDGiT
(1 向量空间模型 [5] 的研究日益成熟 Salton 等人在 60 年代
末提出的向量空间模型在文本分类、自动索引、信息检索等领域
得到广泛的应用,已成为最简便高效的文本表示模型之一。
5PCzVD7HxA
(2 特征项的选择进行了较深入的研究对于英法德等语种,
文本可以由单词、单词簇、短语、短语簇或其他特征项进行表
示。 jLBHrnAILg
国内对于文本分类的研究起步比较晚, 1981 年,侯汉清教
授对于计算机在文本分类工作中的应用作了探讨,并介绍了国外
计算机管理分类表、计算机分类检索、计算机自动分类、计算机
编制分类表等方面的简况。此后,我国陆续研究出一批计算机辅
助分类系统和自动分类系统。但是中英文之间存在较大差异,国
内的研究无法直接参照国外的研究成果,所以中文文本分类技术
还存在这一些问题。 xHAQX74J0X
(1 缺少统一的中文语料库不存在标准的用于文本分类的中
文语料库,各个学者分头收集自己的训练文本集,并在此基础上
3 / 16
开展研究,因此,系统的性能可比性不强。同时,由于财力人力
有限,中文语料库的规模普遍不大。 LDAYtRyKfE
(2 向量空间模型的研究还不十分成熟国内的学者,例如,
吴立德和黄萱菁也提出了如何选择特征项的问题,他们提出可以
使用字、词、概念作为特征项来构成向量空间模型,并对以此为
基础的文本分类系统进行了初步的性能比较。但是,在这方面的
研究 [6] 还没有深入的开展,尤其是对于概念的定义不清晰,没
有全面的比较和测试系统。另外,在特征项抽取算法方面也缺少
深入的研究。 Zzz6ZB2Ltk
(3 文本分类算法的研究不十分完整每个分类器通常只实现
一种分类算法,然后进行测试和分析,缺少完整的多种分类算法
性 能 的 比 较 和 测 试 。 dvzfvkwMI1
4 / 16
解决方案
2.1 KNN文本分类算法
KNN[7]算法最初由 Cover 和 Hart 于 1968 年提出 [8] ,是一
个理论上比较成熟的方法。该算法的基本思想是 : 根据传统的向
量空间模型,文本内容被形式化为特征空间中的加权特征向量,
即 D=D(T1,W1。T2,W2。 。 Tn,Wn。对于一个测试文本,计
算它与训练样本集中每个文本的相似度,找出 K 个最相似的文
本,根据加权距离和判断测试文本所属的类别。具体算法步骤如
下:rqyn14ZNXI
(1 对于一个测试文本,根据特征词形成测试文本向量。
您可能关注的文档
最近下载
- 湿式报警阀组更换施工方案及流程.docx VIP
- 投资与资产管理公司关键绩效KPI体系管理细则.docx VIP
- 高性能纤维材料-第1篇-洞察及研究.docx VIP
- 用具体案例分享有效培养学生自主管理能力的经验和方法.docx VIP
- 79博客-目录书签跳转版.pdf VIP
- 食品新产品开发 课件全套 第1--6章 绪论、食品新产品开发流程---食品新产品流通过程管理.pptx
- 2024高考上海语文卷详解及备考建议(古诗文有详译)3.docx VIP
- 【人教版化学】选择性必修3 知识点默写小纸条(空白默写版.docx VIP
- YBT 4243-2011 钢铁企业冷轧板带热处理线和涂镀线工业炉环保节能设计技术规范.docx VIP
- 高中英语语法强调句的用法优秀公开课课件.ppt VIP
原创力文档


文档评论(0)