- 6
- 0
- 约3.45千字
- 约 8页
- 2018-08-31 发布于福建
- 举报
基于页面标签网页分类研究
基于页面标签的网页分类研究
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No
[摘 要] 针对Html网页结构的特点,网页的不同标记信息所辖的特征项包含不同的类别信息,通过抽取网页不同标记信息内的特征项并赋予不同权重来表明其重要程度。实验证明该方法比单独依赖网页内容信息的分类在效果上有所提高。
[关键词] 网页分类 特征项 权重计算
一、引言
随着互联网技术的不断发展,web网已经成为一个巨大的信息源,成为人们获取信息的重要来源。由于Web网页中蕴藏的信息资源内容广泛,形式各异,有效组织和管理这些资源尤为重要,通过网页的自动分类可以更好地对其进行组织和管理,加快信息检索的速度。然而,web页面中存在着大量的HTML格式的无结构数据和少量XML格式的半结构数据。一方面,这些结构性信息常是页面中包含的非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。另一方面,这些结构性信息又包含着重要的分类信息,利用好这些信息能有效提高分类效果。
本文对网页的标记进行了分类,对位于不同标记内的特征项赋予不同的权重系数,在分类过程中重新调整其权值,以期改善分类器的性能。
二、网页特征分析
与纯文本数据不
您可能关注的文档
最近下载
- 75种典型k线形态及意义分析.doc VIP
- 中国机器人手术麻醉管理专家共识(2026).docx VIP
- GB_50057-2010___建筑物防雷设计规范.doc VIP
- 医保3.0时代首次病程记录书写规范与实战模板.docx VIP
- 2025-2026统编版二年级语文下册第七单元提优测试卷(含答案).pdf VIP
- 2023年北京市中考数学试卷真题(含参考答案).doc VIP
- 2026广西能汇投资集团校园招聘笔试参考题库及答案解析.docx VIP
- 理光Ricoh IM C300 C400F维修手册.pdf VIP
- (内容完整)学团史做新时代合格团员微团课学习课件(1).pptx VIP
- 人教版数学二年级下册3.7《练习课》分层作业(含答案).docx VIP
原创力文档

文档评论(0)