- 11
- 0
- 约1.7万字
- 约 9页
- 2020-10-10 发布于四川
- 举报
WAP 网页文本分类特征权重计算的改进
邱思衡
北京邮电大学信息与通信工程学院 北京(100876 )
摘 要:本文对传统的权重计算方案进行了分析,在指出其不足的基础上提出了改进方案,
首先对特征的类别区分能力予以了着重加强,在传统的权重公式中扩展了一项单词的类区分
能力。其次对WAP 网页文档信息特征进行分析,并且提出了WAP 网页文档中关键特征词、
关键特征域和关键特征空间的概念。分析论证了在关键特征空间上应当使用文档频度
DF(documentfrcquency)信息而非传统意义上的DF (inverse document frequency)进行权值计
算,以更加精确地描述WAP 网页文本。
关键词:WAP 文本分类 特征权重 关键特征空间
1.引 言
WA P 的全称是Wireless Application Protocol,即无线通信应用协议,是一个全球性的开
放协议。这种技术主要用于将互联网上的HTML 语言信息转换成为WML 描述的信息,使
人们可以利用手机等终端,通过移
原创力文档

文档评论(0)