sewm中文网页分类评测清华大学参赛队报告.pptVIP

  • 0
  • 0
  • 约3.5千字
  • 约 20页
  • 2015-08-15 发布于湖北
  • 举报

sewm中文网页分类评测清华大学参赛队报告.ppt

sewm中文网页分类评测清华大学参赛队报告.ppt

SEWM2006中文网页分类评测 清华大学参赛队报告 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 徐舒 xus05@ 内容提纲 CWT200G数据预处理 网页分类策略 未来工作及建议 参考文献 数据预处理-总体设计 zlib压缩存储 处理全部200G数据 保留原始网页的页面信息和链接关系 中间数据可用于对网页分类的进一步的研究 数据预处理-HTML解析(1) 网页分类需要注意的几个问题: 直接应用纯文本分类策略效果很差 通常包含具有丰富语义信息的Tag 通常含有大量噪声 可能包含多媒体信息而无确切的文本内容 提取HTML中如下标签和属性: Title METADATA (keywords,description,etc), A (Surrounding text) 页面正文信息 实现方法: 基于Python的HTMLParser类,重载其中部分接口 数据预处理-HTML解析(2) 编码转换: 常用网页编码格式: GBK/GB18030/GB2312(简体) BIG-5(繁体) UTF8/UTF16(通用) 只处理BIG5,GBK和UTF-8三种编码 统一转码成为GBK编码(编码转换库Libiconv) 05年训练集中的编码数量统计: BIG5:53, UTF-8:6, GBK:15457 数据预处理-信息抽取和去噪(1) 在解析HTML的基础上进行 表征同一网页

文档评论(0)

1亿VIP精品文档

相关文档