- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第31卷第1期 北京服装学院学报 V01.3lNo.1
of Instituteof Jan.2011
2011年1月 Journal ClothingTechnology
Beijing
服装网页自动分类技术研究木
周毅灵,耿增民
(北京服装学院计算机信息中心,北京100029)
摘要:如何对Internet上的服装网页进行自动识别是服装资源挖掘研究的重要内容.本文研究
类准确率相当;特征提取的维数可以控制在一定的范围;过高的特征数目不一定有较高的分类准
确率;针对领域特点进行算法或特征提取调整才能迸一步提高分类的准确率.
关键词:文本分类;Web挖掘;Bayes算法;KNN算法
中图分类号:TP391.4l文献标志码:A 文章编号:1001—0564(2011)01—0055一05
人类的发展史在某种程度上也是服装文化的发展史.中国数千年的服装历史,积累了大
量的服装样式、纺织图案、服装材料等反映当时文化、经济等发展状况的宝贵的服装历史数据.
改革开放30年来及加入WTO后,人们对生活质量的要求越来越高,服装产业更是迅猛发展,
信息杂乱无章,人们若不借助工具,成功找到所需信息的概率极低.文本分类技术正是帮助实
现上述目的的有效工具,借助自动分类算法我们可以按照一定的服装分类策略进行分类,以便
更加快速高效地找到需要的服装资源.
1 自动分类过程
在从Internet上自动获取网页,并将属于服装范畴的网页识别出来,然后按照一定的类别
进行服装分类的过程中,首先要判别网页是不是服装网页,在是的情况下,再将其归属到不同
的服装类别.网页数据的格式是HTML文档,服装类别分为西装、休闲装、女装和童装共4类.
图1和图2形象地说明了网页识别的整个过程.
L—压谪副
图1 网页分类器的建立过程
收稿Fj期:2010—09—28
·基金项目:中国纺织经济研究中心资助项目(H2009—39)
作者简介:周毅灵(1962一)。女,副教授.
联系电话:010
56 北京服装学院学报(自然科学版) 2011年
图2网页分类器的工作过程
3部分.分类的结果是明确的,或者是某类服装网页或者不是.定义需要的
Body、Hyperlink
Web网页为正例(4个类别的Web文档),不需要的Web网页为反例.
2特征提取和权证计算
特征就是能显著标识服装文档的关键词条或短语(如针织服装、梭织服装等).特征提取
的方法很多,最简单的就是词频统计,但它过于简单,对标题或文摘之类的字符段不适用.特
征数目的选择不能太大,否则影响程序的计算速度;特征数目太小,影响识别的效果.有时需
要反复设定阈值来确定效果。¨.我们的实验选择互信息作为特征.
为了更准确地描述特征在文本中的重要性,在确定特征后,需要计算特征在向量空间中的
权重.
2.1互信息(MutualInformation。MI)
特征t。的互信息如公式(1)所示.
MI(“ci)乩g高端, (1)
数除以训练集的大小;P(ei)为训练集中属于类型c;的文本所占的比例.
2.2 TF-IDF权重
在文本中出现次数越多越重要;特征在越多的文本中出现,越不重要.
TF-IDF计算公式常见的有若干种,如公式(2)
%=九×log(丢+0.5). (2)
在公式(2)中,文本越长,特征频度可能越大,权蕈值就会越大.对它进行Cosine规格化,
可以在一定程度上消除文本长度对权重的影响
文档评论(0)