- 1
- 0
- 约1.07千字
- 约 11页
- 2015-08-15 发布于湖北
- 举报
SEWM分类任务系统说明.ppt
SEWM2005分类任务系统说明 江西师范大学网络应用研究所 曾雪强 分类系统结构说明 系统模块列表 HTML格式处理模块 中文分词模块 分类训练模块 分类模块 网页格式处理 采用JAVA开源项目HTMLParser 遇到问题: 字符集的编码类型较多:GB2312、GBK、UTF-8、BIG5、EUC-KR、Shift JIS,只保留了前三种。 字符集的标定有少量错误,我们发现一些标为GBK的网页是乱码;标为UTF-8 的网页,经过重新编码后仍为乱码。 存在一部分二进制文件,如:RAR、ZIP、PDF等;而没有一种很好的算法进行自动识别。 少量网页的格式不标准,HTML分析时会出错。 共滤掉2G多的网页。 中文分词模块 采用中科院计算所ICTCLAS分词软件。 存在的问题: 由于我们采用的是该分词软件的免费版本,分词效果肯定不如商业版的好。 分词系统,遇到一些异常情况会报错退出:比如超常英文字符串,特定的GBK汉字和乱码。 过滤了所有分词出错的网页。 采用的分类模型 LSC1:基于潜在语义结构的二元分类器 kNN:标准kNN算法 LSC2:基于潜在语义结构的多类分类器 SVM:SVMlight算法 如果是二元分类器,就采用了多个二元分类器组合的方式。 系统的一些说明 特征提取 去除了英文的停用词; 根据分词信息,只保留了中文的名词和动词; 采用文档频数进行初选(保留文档频数在
原创力文档

文档评论(0)