- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于KNN算法的文本分类系统的设计与实现-软件工程专业论文
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工 作 及 取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献 的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律 结果由本人承担。
学位论文作者签名:
日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□, 在 年解密后适用本授权书。
不保密□。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年 月 日 日期: 年 月 日
摘 要
自 1995 年以来,Web 技术进入了快速发展的阶段,表现为 Internet 上的 Web 页 面数量与服务站点数量呈指数级增长。2004 年后,Internet 上的 PIW(pubulic indexable
1010
Web)页面数目达到了
数量级,而且已每天新增 800 万新页面的速度。同时,
Web 服务器的数量 23 周即可增长一倍。Web 已成为一个开放性、动态的、全球性信
息服务中心,以及当前人们获取信息的重要手段。如何从大量的 Web 信息中提取出 人们感兴趣的信息和有价值的信息是现代信息研究的重要课题。
针对 Web 文本挖掘的特殊性,设计并实现了一个文本分类系统。使用该系统的 主要目的是实验和发现 Web 文本分类相关算法的性能和准确率。系统主要包括训练 和分类两大模块。训练模块有:(1)中文文本预处理,系统采用中科院计算所汉语 词法分析工具包 ICTCLAS,实现了对文本的分词和预处理功能;(2)特征选择,实 现了文档频度 DF、卡方特征词选择、信息增益(IG)、互信息法等四种特征选择算 法;(3)权重计算,实现了 TF、TF*特征评估函数值等权重算法,建立 VSM 模型;
(4)分类器构造,实现了 K 近邻基于统计方法的文本分类算法,分类模块还包括对 分类结果进行评价,并将评价结果反馈给训练模块,从而不断改进训练过程。
为了评测已实现的 KNN 分类系统的分类精度,采用了因特网上由搜狐新闻内容 组成的小型语料库进行训练和分类测试。该语料库包括教育,体育,环境,娱乐, 科技,经济 6 个类别,共 780 个文本。同时对改进后的算法进行实验并比较分析。 实验数据可用于信息检索、信息过滤、数字图书馆和网页分类等做参考。
关键词:数据挖掘 文本分类 KNN 文本挖掘
Abstract
Since 1995, Web technology has entered a stage of rapid development. The Internet Web page number and service site number increase exponentially. In 2004, Internet PIW
(publicly indexable Web) page number by an order of
1010 magnitude, but also has
daily added 8million new page speed. At the same time, the number of Web server can be doubled in 23 weeks. Web has become an open, dynamic, global information service center, and an important means of obtaining information. How to extract information from a large number of Web information that people interested in is an important subject in the study of modern information.
Aiming at the particularity of Web text mining, a text categorization system is designed and implemented. The use of the system’s main purpose is to test and find out the Web text categorizati
您可能关注的文档
- 基于Kerberos的计算机内部网络安全模型研究-模式识别与智能系统专业论文.docx
- 基于Kernel方法和WordNet的Web服务发现技术分析-计算机软件与理论专业论文.docx
- 基于Kernel方法和WordNet的Web服务发现技术研究-计算机软件与理论专业论文.docx
- 基于Kemulator的手机游戏软件自动化测试-软件工程专业论文.docx
- 基于KFCM的模糊最小二乘SVM研究-应用数学专业论文.docx
- 基于KeyNote授权证书的Web访问控制研究-计算机应用技术专业论文.docx
- 基于Kettle的数据传输平台的设计与实现-软件工程专业论文.docx
- 基于KFCM算法与改进CV模型的图像分割算法研究-计算数学专业论文.docx
- 基于Kerr非线性效应全光逻辑门的研究-信号与信息处理专业论文.docx
- 基于KICA的小波域数字多水印方法研究-计算机应用技术专业论文.docx
- 2026年度中国计量大学单招《数学》考前冲刺练习试题(全国通用)附答案详解.docx
- 2026年度上海健康医学院单招《数学》模拟试题【B卷】附答案详解.docx
- 强化训练教科版九年级物理下册-物理学与能源技术专项训练练习题(解析版).docx
- 强化训练教科版九年级物理下册-物理学与能源技术专项训练练习题(含答案解析).docx
- 2026年度三亚中瑞酒店管理职业学院单招《数学》能力提升B卷题库及完整答案详解(有一套).docx
- 2026年度三峡旅游职业技术学院单招《数学》试卷【实用】附答案详解.docx
- 2026年度七台河职业学院单招《数学》模考模拟试题附答案详解【夺分金卷】.docx
- 2026-2031中国生鲜零售市场前景研究与市场分析预测报告.docx
- 2026年度吕梁师范高等专科学校单招《数学》题库试题及答案详解【精选题】.docx
- 2026-2031中国生鲜行业研究及投资前景预测报告.docx
最近下载
- 最新初中语文教学:第14课《大雁归来》(新人教版八下)市公开课获奖课件省名师示范课获奖课件.pptx VIP
- 雷神游戏手柄TC-G50用户手册.pdf
- 高折射率光学树脂:分子设计、合成工艺与多元应用的深度探究.docx
- 徐锻冲床PSP80说明书.pdf VIP
- 第五单元 走向近代 总结与提升教学设计 2024-2025学年统编版九年级历史上册.docx VIP
- 网架安装施工方案.pdf VIP
- 安川变频器-安川变频器 T1000V.pdf VIP
- 网架安装施工方案.pdf VIP
- 2024教学心得体会:初中数学跨学科主题学习的设计与实施.docx VIP
- 《GB/T 18887-2023土工合成材料 机织/非织造复合土工布》.pdf
原创力文档


文档评论(0)