基于主题的网页文本分类技术【参考】.docVIP

下载本文档

8
0
约1.86万字
约 32页
2017-01-06 发布于浙江
举报

基于主题的网页文本分类技术【参考】.doc

摘要随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正广泛应用于搜索引擎、站点结构分析、页面有效性分析、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本项目面向互联网中存在的海量教育资源，对Web上满足特定主题的信息的有效采集进行研究。基于主题的Web教育资源采集技术的研究主要有三个研究内容：本体构建技术研究、主题爬虫技术研究以及网页文本分类技术研究。网页文本分类技术被广泛应用到搜索引擎中，本文对文本分类技术进行研究，介绍文本分类的基本过程，论述文本预处理、分词以及特征提取方法，讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法，探讨网页文本分类技术。采用支持向量机技术，设计并实现了一个开放的基于主题的网页文本分类系统。实验表明，它不仅具有较高的训练效率，同时能得到很高的分类准确率和查全率。关键词：主题，分词，向量空间模型，文本分类，支持向量机 Abstract With the rapid expansion of information on the Web , th

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于主题的网页文本分类技术【参考】.docVIP