基于DOM模型的网页净化系统设计与实现-软件工程专业论文.docxVIP

基于DOM模型的网页净化系统设计与实现-软件工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Design Design and implementation of DOM—based noise reduction system by LU0 Limin B.E.(Hunan University)2005 A thesis submitted in partial satisfaction of the Requirements for the degree of Master of Engineering ln Software Engineering in the Graduate School of Hunan University Supervisor Professor LIN Yaping Sentior Engineer PENG Yijiang June,2010 - 湖南大 湖南大 学位论文原创 本人郑重声明:所呈交的论文是本人 取得的研究成果。除了文中特别加以标注 。一=f≯q箍。捧p萨》蕊0·孝、、≯。≮≮岔备-, 何其他个人或集体己经发表或撰写的成果 献的个人和集体,均已在文中以明确方式 法律后果由本人承担。 作者签名: 影象叙 学位论文版权使 本学位论文作者完全了解学校有关保 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 l、保密口,在 年解密后适用本授权书。 2、不保密曰。 (请在以上相应方框内打“√”) 作者签名:哆鸯色数 日期:≯咖年7月,日 导师签名:枷事 吼钾年7月夕日 、钧/吐 J1·1 At w 、了 4·  k hJF 3 4 7 f z WEe- ,?. , . Jb 手ψ hm· MW 锣54 飞飞 、 , K. Aa 、吃tT uf A a 、 吃 t FF ,? 基于DOM模型的网页净化系统设计与实现摘 基于DOM模型的网页净化系统设计与实现 摘 要 随着Internet技术的飞速发展,互联网上的信息成几何级数地增长。网络给 人们提供了大量信息的同时,也给人们快速准确的获取信息带来了挑战。为了能 有效地利用网页资源,就需要对这些资源进行预处理。预处理关键的问题之一是 去除掉网页中的噪音数据,即把与网页内容无关的广告、导航条以及版权等信息 尽量去除,以得到所需要的网页主题信息,也即网页净化。 本文首先介绍了网页净化的方法和技术。其中网页净化的方法包括基于网页 结构的方法、基于模版的方法和基于可视化信息的方法等。网页净化的技术则主 要有三个方面:信息提取、网页分块和网页适应。 接着,本文介绍了可扩展超文本标记语言和文档对象模型的概念及其结构。 在此基础上,本文提出了一种基于网页布局的文档对象模型(WLB DOM模型), 该模型的建立包括预处理、标签过滤和模型建立等过程,文中详细介绍了该模型 的结构和构建方法。 然后,本文提出了一种基于WLB DOM模型的网页净化算法,这是一种基于 网页结构的方法和基于可视化信息的方法相结合的算法。该算法认为网页中同层 布局空间最大的块即主题信息所在块。为了验证本算法的正确性和有效性,对来 自CWT200G测试集的部分语料进行了实验,实验结果表明该算法有较高的准确 率。 最后,本文在提出的模型和算法基础上,在Microsoft Visual Studio 2008开发 平台下,用C{fj}语言实现了一个基于WLB DOM模型的网页净化系统原型。 —一≯■%汹瓷器.’扎礼≯讼嚣母蛀玑地滞≮心‰o簪事∞帮膏藩扎≯∥多~势一圣冷毒毒j}=爹。≥0∥:..o;气,..,≯o.≥t 关键词:网页净化;网页噪音;DOM;网页分块 :: %: 玉 酱 毒 每 lI 应-可飞玲 在 如rm 撞, 咬 1 r·♂ 。, . hh4旬 她们护了·布 -, . · 、-hhA萨74哑APG作吧?kffdc 也亏轧y 卢:元 -,, · , ., ‘ ‘ · :、‘吨lh , , 马Jtdtn z 1e t-Jγe : 、‘ 吨l  Mg J ? : l ‘;、, , ·, ‘ ; 、 吮歹、- 吮歹 、 e - fMH ,, 工程硕十学位论文 工程硕十学位论文 ===!!=!!=!==!!!====!!==!=!========!!!!====!!!==!!==!!!!=!!=!!=!=!!==!=!==!!!!!!!==!!!!!=2=2 Abstract With the rapid development of the Internet techniques,the information

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档