- 1
- 0
- 约1.49千字
- 约 13页
- 2015-08-15 发布于湖北
- 举报
SEWM 中文网页分类评测参赛系统说明.ppt
SEWM2007中文网页分类评测参赛系统说明 北京大学信息管理系 小组成员:王建冬 田飞佳 内容提要 分类系统模块结构 各模块主要算法 系统运行环境介绍 分类系统模块结构 分类系统模块结构 系统设计整体思路 对训练集(包括训练集1和2)进行网页净化 然后对净化后的中文文本进行分词,接着从切分后的文本中选取最合适的特征向量表示文档,再利用分类模型对特征向量进行处理,确定其类别。 根据评测程序比较分类结果与网页本身所属的类别,并通过调整特征向量提取和分类模型的算法,以及调整参数的设定,使测试集评测指标达到最优。在评测指标达到最优以后,也就确立了分类器。 系统模块详解 网页净化模块 中文分词模块 特征项提取模块 分类模块 网页净化模块 提出了一个基于开源项目Htmlparser的同层次 表间比较迭代算法 。 抽取网页主要内容及权值: 标题(title) 权值为8 正文 (content) 权值为6 URL锚文本 权值为3 网页进化算法(对于正文) 对网页结构进行分析,认为网页内容块无论形式如何,必定是存放在某一个表格中,对于不在表格中的部分,将其看作一个表格,便于处理。 根据表格的嵌套关系对每个表格进行分级,
您可能关注的文档
最近下载
- 地下管线普查方案.doc VIP
- 2026年外包公司软件测试工程师面试全解析.docx VIP
- 2024版光伏工程施工工艺手册.pdf VIP
- 母婴保健技术服务许可证校验申请书.doc VIP
- 集团公司供应商管理办法.docx VIP
- 压力式膜技术手册(Memcor).pdf VIP
- 初中英语1600词新课标词汇(按话题分类).docx VIP
- DL∕T电力企业标准化工作指南(2024).pdf VIP
- 2024年供水公司安全生产“一岗双责”实施方案(三篇) .pdf VIP
- Unit1 Art Reading for writing【知识精研】英语人教版(2019) 选择性必修三同步课.pptx VIP
原创力文档

文档评论(0)