sewm中文网页分类评测清华大学参赛队报告.pptVIP

下载本文档

0
0
约3.5千字
约 20页
2015-08-15 发布于湖北
举报

sewm中文网页分类评测清华大学参赛队报告.ppt

SEWM2006中文网页分类评测清华大学参赛队报告清华大学计算机科学与技术系智能技术与系统国家重点实验室徐舒 xus05@ 内容提纲 CWT200G数据预处理网页分类策略未来工作及建议参考文献数据预处理－总体设计 zlib压缩存储处理全部200G数据保留原始网页的页面信息和链接关系中间数据可用于对网页分类的进一步的研究数据预处理－HTML解析（1）网页分类需要注意的几个问题：直接应用纯文本分类策略效果很差通常包含具有丰富语义信息的Tag 通常含有大量噪声可能包含多媒体信息而无确切的文本内容提取HTML中如下标签和属性： Title METADATA (keywords,description,etc)， A (Surrounding text) 页面正文信息实现方法：基于Python的HTMLParser类，重载其中部分接口数据预处理－HTML解析（2）编码转换：常用网页编码格式： GBK/GB18030/GB2312(简体) BIG-5(繁体) UTF8/UTF16(通用) 只处理BIG5,GBK和UTF-8三种编码统一转码成为GBK编码（编码转换库Libiconv） 05年训练集中的编码数量统计： BIG5：53， UTF-8：6， GBK：15457 数据预处理－信息抽取和去噪（1）在解析HTML的基础上进行表征同一网页

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

sewm中文网页分类评测清华大学参赛队报告.pptVIP