一种辅以规则补充的双层文本分类模型-北京大学网络与信息系统研究所.PPT

下载文档 降价啦

0
0
约1.01千字
约 13页
2019-02-04 发布于天津
举报
版权申诉
保障服务

一种辅以规则补充的双层文本分类模型-北京大学网络与信息系统研究所.PPT

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种辅以规则补充的双层文本分类模型-北京大学网络与信息系统研究所

SEWM2007中文网页分类系统说明刘金红、孙宏纲、施凡、李军杰、赵亭解放军电子工程学院网络工程系概要系统结构与工作流程系统模块及主要算法系统运行环境总结和展望一、系统的结构系统整体结构图系统工作流程图二、系统模块及主要算法网页预处理模块中文分词模块文本分类模块网页预处理模块网页净化模块对训练集、CWT20G文件进行解压，得到两个网页文档集合：11类别训练集和待分类网页集，对网页进行净化主要包括以下几部分：（1）根据网页中超链接在某一块中的出现比率去除网页导航条信息；（2）利用关键词构造正则表达式来去除广告栏信息和版权信息；（3）去掉无用的HTML语法标签信息。元数据抽取模块抽取网页标题（titile）、关键词（keywords）和网页描述（description）等元数据；基于JTidy去除Html标签和抽取网页的主体文本（body）内容。中文分词模块基于逆向最长匹配的分词算法穷尽式名词短语识别算法主要思想是，在分词的基础上，进一步找出所有的名词和名词性短语；目的是为了构建规则分类器。去除停用词根据实词词典和停用词词典，去除虚词和停用词，超高频词与超低频词在文本表示模块中去除。文本分类模块基于规则的分类器由机器自动完成对分类析取规则集的学习。每一条规则由名词或名词短语构成；析取规则包括DF和IG；利用规则集合作为辅助分类器。基于N-gram的分类器 N-gram算法中，N=2，gram为词。特征选择基于IG（Information Gain）进行选择。权重计算采用了改进的LTC方法。三、系统运行环境硬件平台：数据预处理 Lenovo PC机 8台，配置信息如下： CPU：2.4G；内存：512M；硬盘：160G 网页分类 Lenovo PC机 1台，配置信息如下： CPU：2.4G；内存：1G；硬盘：80G 操作系统： Windows XP SP2；编程语言与开发平台： Java 2 ，JBuilder 9 。四、总结和展望完善网页的预处理，提高有效文字抽取的精度；深入研究规则学习算法和文档特征项，以进一步提高规则学习效率和规则的有效性。汇报完毕！谢谢大家！ * * * *