基于机器学习Web文本自动分类.docVIP

下载本文档

1
0
约5.73千字
约 12页
2018-08-30 发布于福建
举报
版权申诉

基于机器学习Web文本自动分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于机器学习Web文本自动分类

基于机器学习Web文本自动分类　　摘要：提出了一种基于机器学习的Web文本自动分类的架构，提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计，它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。　　关键词：Web信息检索；文本分类；机器学习　　中图分类号：TP181文献标识码：A文章编号：1672-7800（2011）01-0026-03 　　　　作者简介：袁晓曦（1982-），女，湖北武汉人，硕士，武汉软件工程职业学院讲师，研究方向为人工智能及应用。0引言　　 Web已经发展成为拥有巨大信息资源的分布式信息空间，包含有巨量的各种类型的Web文档。搜索引擎很难满足不同用户对检索结果精化的要求。本文研究的Web文本自动分类系统,通过学习用户感兴趣的样本文本自动建立用于Web文本分类的特征词库，通过特征词条匹配自动实现Web文本分类，有效提高检索的精度，给出符合用户要求的定制检索结果，可以大大降低人工二次浏览筛选的工作量。　　1Web文本自动分类系统总体框图　　1.1网络蜘蛛　　网络蜘蛛有两种策略来遍历Web空间：广度优先和深度优先。采用广度优先策略，有利于提高网络蜘蛛的抓取速度。　　图1Web文本自动分类系统总体框图　　要正确提取HTML文档中所需的链接和文本信息，首要的问题是对HTML进行解析，将HTML字符流变为由HTML标签系列组成的结构化文档。按照Robots协议，网络蜘蛛进入一个网站时应首先访问一个特殊的文本文件Robots.txt，这个文件通常置于网站服务器的根目录下，网站管理员可以通过Robots.txt来定义哪些目录不能被网络蜘蛛访问，或者哪些目录对于某些特定的网络蜘蛛不能被访问。网站管理员建立将链接信息写入sitemap.htm中，那么，网络蜘蛛可以把sitemap.htm文件作为网站Web文档抓取的入口。　　1.2HTML结构化解析　　网络蜘蛛抓取的Web文档中包括多种格式的信息，如HTML档、图片、DOC文档、PDF文档、多媒体信息及其它格式的信息基于Web文本内容的分类对其中的图片和声像信息并不感兴趣，应将其剔除。静态Web文档是HTML格式文档，动态Web文档是由脚本来动态生成的HTML格式文档。因此，从客户端的角度来看，静态Web文档和动态Web文档并无不同。网络蜘蛛在获得了HTML格式的文档后，将提取其中的链接信息来跟踪子链接,提取其中的文本信息供文档分类使用。　　1.3Web文本预处理　　 Web文本预处理包括文本内容过滤和中文分词。文本内容过滤是从网络蜘蛛输出的Web文本中提取用于分类的文本内容，中文分词把中文文本内容切分成中文词条。　　网络蜘蛛输出的Web文本仅包括HTML标记、文本和脚本。由Web文本过滤模块对脚本和HTML标记进行过滤，提取所需的用于文档分类的文本内容。由于中文文本没有显式的词条分隔标志，中文分词的任务是将中文词条自动分隔开来获得中文文本使用的中文词条集。由Web文本过滤模块对脚本和HTML标记进行过滤，提取所需的用于文档分类的文本内容。而中文词典的存储结构采取词库按词条的长度分为4个子库，分别容纳四字词、三字词、双字词和单字词。词库的存储结构为哈希表，因此构建4个哈希表分别存储四字词、三字词、双字词和单字词。词条按长度分别被存入到对应的哈希表中。词条在哈希表中的存放位置由词条的哈希码决定。对于中文文本切分经过综合比较分析，采用最大匹配法（MM）既简便易行，又能保证分类的质量。　　1.4特征选取与文本分类　　文本分类是按预先定义的类别，确定待分类文本的类属，文本分类的依据是词条(term)在文本中的使用。通常，一个文本的词条很多,不可能将这些词条都作为分类的特征，这就需要从文本被切分后获得的词条集中挑选出若干具有分类意义的特征词条组成用于分类的特征词条集。　　基于机器学习的自动方式主要是通过对若干不同类别文本的学习，自动建立特征词库。而且，当供学习的样本文本更新后，通过重新学习就可自动更新特征词库，以适应对新的文本类别的分类识别。　　在对一系列的特征选取算法进行了比较分析后，采用了称之为文本频度与词条频度综合法，简称为DFTF(Document Frequency and Term Frequency)方法来实现特征选取。任何一个待分类的文本经过 “中文词条切分”处理后，得到该文本的词条集，在特征词库的支持下，由“文本分类器”得出该文本的所属类别。文本分类器把文本词条集中的词条逐一与特征词库中的特征词匹配，然后采用贝叶斯分类算法得出该文本所属类别。　　采用改进了的贝叶斯文本分类算法，其