- 8
- 0
- 约3.41千字
- 约 21页
- 2017-09-05 发布于重庆
- 举报
利用分块重要度进行中文网页分类的研究 段 昕 山东大学计算机学院 引 言 互联网的发展和信息量俱增使得人们对于主题网页(以下简称“网页”)自动分类的要求越来越迫切。 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要一种分类质量更高的网页分类方法。 网页分块 网页中的信息并不都是具有相同的重要度的,比如大字标题就要比导航条更加引人注目。网页中的不同信息由于所处的位置、占据的空间大小或者内容不同而具有不同的重要度。所以,我们可以将网页按照内容分块,利用分块的一些特征来进行网页分类,从而提高分类的质量。 网页分块方法(1) 基于位置关系的分块法 网页分块方法(2) 基于文档对象模型(DOM)的分块法 网页分块方法(3) 基于视觉特征网页分块法(VIPS) 网页分块重要度的标定 利用网页的空间和内容特征可以对分块进行重要度的标注,共分为4个级别: 实 验 为了检验利用网页分块技术进行中文主题网页分类的质量,我们将其与传统网页分类法进行了比较。选取政治、艺术、医药、体育、军事、经济、教育、交通、计算机、环境等10大类共计3000篇主题网页进行实验,其中训练集2000篇,测试集1000篇。 在进行特征提取时,采用了开方检验( test, CHI)特征提取法,计算特征项t和类别c的相
您可能关注的文档
- 淮南煤矿区煤炭开采水质污染研究.doc
- 黄河中游多沙粗沙区流域坡面水保措施变化特征.pdf
- 活性骨组织体外调节和促进成骨细胞黏附特性的作用.pdf
- 机构名称:九江精密测试技术研究所检测和校准实验室.doc
- 机械故障诊断技术-教学管理系统.ppt
- 基础研究三种示踪技术标记人脂肪组织来源干细胞的对照研究.pdf
- 基因修饰的调节性DC对小鼠甲状腺相关性眼病的治疗作用.pdf
- 基于_5W_1H_模型的企业微博_省略_探讨_以聚美优品新浪认证微博为例_王凯飞.pdf
- 基于ANSYSWorkbench采煤机行走轮与销轨啮合瞬态动力.pdf
- 基于ecmall的平台走向自动赢利的设想.pdf
- 安全生产管理员能力培训.pptx
- 咽异感症与心理健康促进.pptx
- 咽异感症与扁桃体炎的鉴别.pptx
- 咽异感症与抑郁症的关系.pptx
- 咽异感症与环境污染的关系.pptx
- 《生动的数据》课件-2025-2026学年沪教版(新教材)小学美术三年级下册.pptx
- 《校园微电影宣传策划》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 《 春华秋实绘花鸟》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 管理层安全培训策略.pptx
- 《把“大自然”穿在身上》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
原创力文档

文档评论(0)