中文文本分类算法的研究.pdfVIP

下载本文档

15
0
约7.46万字
约 65页
2015-11-05 发布于安徽
举报

中文文本分类算法的研究.pdf

硕士论文中文文本分类算法研究摘要几十年信息技术和网络的发展，极大地方便了人们的交流和沟通，人类文明的发展得到了很大推动，但是技术的发展也带来了信息海量式膨胀和有害信息等各种问题，如何在海量数据环境下有效地管理并快速地将所需的数据进行分类，成为信息科学领域迫切需要解决的问题。随着技术的发展，文本分类作为一门有着很大实用价值的独立学科成长了起来，并在信息检索、搜索引擎、舆情分析等领域得到了广泛应用。由于文本用向量空间模型表示存在维度高、稀疏性大的特点，对于文本的分类有一定的难度。信息增益是目前最为常用的文本特征选择方法，但是对于非平衡集的分类效果不佳。支持向量机是最适合文本分类的方法，但是支持向量机目前仍然存在复杂度较高、花费时间较长、对参数敏感性较强等问题，在实际应用中仍在存在着一些难题。本文针对上述问题做了如下工作：总结分析了文本分类的研究背景和相关技术；研究了特征选择方法和支持向量机的基础理论并总结了它们目前依然存在的问题；针对信息增益没有考虑特征项分布信息而导致的在非平衡集上效果不佳的问题，结合Theil熵定义了类间离散

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文文本分类算法的研究.pdfVIP

中文文本分类算法的研究.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档