- 0
- 0
- 约3.5千字
- 约 20页
- 2015-08-15 发布于湖北
- 举报
sewm中文网页分类评测清华大学参赛队报告.ppt
SEWM2006中文网页分类评测清华大学参赛队报告 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 徐舒 xus05@ 内容提纲 CWT200G数据预处理 网页分类策略 未来工作及建议 参考文献 数据预处理-总体设计 zlib压缩存储 处理全部200G数据 保留原始网页的页面信息和链接关系 中间数据可用于对网页分类的进一步的研究 数据预处理-HTML解析(1) 网页分类需要注意的几个问题: 直接应用纯文本分类策略效果很差 通常包含具有丰富语义信息的Tag 通常含有大量噪声 可能包含多媒体信息而无确切的文本内容 提取HTML中如下标签和属性: Title METADATA (keywords,description,etc), A (Surrounding text) 页面正文信息 实现方法: 基于Python的HTMLParser类,重载其中部分接口 数据预处理-HTML解析(2) 编码转换: 常用网页编码格式: GBK/GB18030/GB2312(简体) BIG-5(繁体) UTF8/UTF16(通用) 只处理BIG5,GBK和UTF-8三种编码 统一转码成为GBK编码(编码转换库Libiconv) 05年训练集中的编码数量统计: BIG5:53, UTF-8:6, GBK:15457 数据预处理-信息抽取和去噪(1) 在解析HTML的基础上进行 表征同一网页
您可能关注的文档
最近下载
- MBTI 英文介绍课件.ppt VIP
- 《乙炔气柜安全运行规程》.pdf VIP
- 《学前儿童艺术教育与活动指导》试卷及答案_2-2《学前儿童艺术教育与活动指导(第二版)》(美术部分)参考答案.docx VIP
- 2026年青岛华通国有资本运营集团有限责任公司校园招聘考试备考试题及答案解析.docx VIP
- 国家安全法课件.pptx VIP
- 中联牌ZLJ5320JQZ25V汽车起重机营销手册.doc VIP
- cmos图像传感器剖析.pptx VIP
- 风电工程质量检测计划 .pdf VIP
- 【《基于Multisim的病房呼叫系统的仿真设计》10000字(论文)】 .pdf
- 伟创电气AC70系列矢量型变频调速器使用指导书.pdf
原创力文档

文档评论(0)