- 15
- 0
- 约7.46万字
- 约 65页
- 2015-11-05 发布于安徽
- 举报
硕士论文 中文文本分类算法研究
摘 要
几十年信息技术和网络的发展,极大地方便了人们的交流和沟通,人类文明的发展
得到了很大推动,但是技术的发展也带来了信息海量式膨胀和有害信息等各种问题,如
何在海量数据环境下有效地管理并快速地将所需的数据进行分类,成为信息科学领域迫
切需要解决的问题。随着技术的发展,文本分类作为一门有着很大实用价值的独立学科
成长了起来,并在信息检索、搜索引擎、舆情分析等领域得到了广泛应用。
由于文本用向量空间模型表示存在维度高、稀疏性大的特点,对于文本的分类有一
定的难度。信息增益是目前最为常用的文本特征选择方法,但是对于非平衡集的分类效
果不佳。支持向量机是最适合文本分类的方法,但是支持向量机目前仍然存在复杂度较
高、花费时间较长、对参数敏感性较强等问题,在实际应用中仍在存在着一些难题。本
文针对上述问题做了如下工作:
总结分析了文本分类的研究背景和相关技术;研究了特征选择方法和支持向量机的
基础理论并总结了它们目前依然存在的问题;针对信息增益没有考虑特征项分布信息而
导致的在非平衡集上效果不佳的问题,结合Theil熵定义了类间离散
您可能关注的文档
- 中国女性电视剧叙事的研究___以20世纪90年代以来的文本为例.pdf
- 中国女性翻译和西方女性主义翻译的比较___以孔慧怡的《荒山之恋》英译本为例.pdf
- 中国企业年金EET税收模式的研究.pdf
- 中国人口较少民族的贫困问题及其扶持政策的研究___以独龙族为例.pdf
- 中国上市公司完善股权激励机制的研究.pdf
- 中国生物医药产业自主创新机制的研究.pdf
- 中国特色城镇化制度变迁和制度创新的研究.pdf
- 中国西部农业基础设施建设运作模式的研究.pdf
- 中国新上市公司股价表现及影响因素的研究.pdf
- 中国政府公共支出结构和经济增长的相关分析的研究.pdf
- 护理伦理教育与案例分析.pptx
- 苏科版数学八年级下册期中仿真模拟卷(一)(解析版).pdf
- 苏科版数学八年级下册期中仿真模拟卷(二)(解析版).pdf
- 湘教版数学八年级下册期中仿真模拟题(二)(解析版).pdf
- 湘教版数学八年级下册期中仿真模拟题(一)(解析版).pdf
- 浙江省杭州市丁荷(丁信)中学2025-2026学年八年级下学期数学期中学情调查(解析版).pdf
- 浙江省兰溪市第二中学2024-2025学年八年级下学期期中考试数学试题(解析版).docx
- 浙江省兰溪市第二中学2024-2025学年八年级下学期期中考试数学试题(解析版).pdf
- 浙江省舟山市2024-2025学年下学期期中数学素养监测试题卷(解析版).pdf
- 浙江省宁波市北仑区精准联盟2024-2025学年 期中质量调研八年级下学期数学试题卷(解析版).pdf
最近下载
- 新苏教版五年级下册科学全册精编知识点(复习资料).pdf
- 小学数学骨干教师基本功试题及答案.docx VIP
- 第九讲:信息与大数据伦理问题-工程伦理.ppt VIP
- 自然资源确权登记测试卷附答案.doc
- 2026上海徐汇高三二模语文试卷及答案.docx VIP
- 第2单元第1课《观照自然》课件+2025-2026学年人美版初中美术七年级下册.pptx VIP
- DIN_7500-1-01_07_2021-en-ISO公制螺纹成型螺钉第1部分:渗碳和回火螺钉技术规范.pdf VIP
- GB50819-2013:油气田集输管道施工规范.pdf VIP
- 2026年江苏省中考历史试卷及答案.doc VIP
- 2025年最新小学数学骨干教师基本功试题及答案.docx VIP
原创力文档

文档评论(0)