- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Design
Design and implementation of DOM—based noise reduction system
by LU0 Limin
B.E.(Hunan University)2005
A thesis submitted in partial satisfaction of the
Requirements for the degree of
Master of Engineering
ln
Software Engineering in the
Graduate School
of
Hunan University
Supervisor Professor LIN Yaping
Sentior Engineer PENG Yijiang
June,2010
-
湖南大
湖南大 学位论文原创 本人郑重声明:所呈交的论文是本人
取得的研究成果。除了文中特别加以标注
。一=f≯q箍。捧p萨》蕊0·孝、、≯。≮≮岔备-, 何其他个人或集体己经发表或撰写的成果
献的个人和集体,均已在文中以明确方式
法律后果由本人承担。
作者签名: 影象叙
学位论文版权使
本学位论文作者完全了解学校有关保 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。
本学位论文属于
l、保密口,在 年解密后适用本授权书。
2、不保密曰。 (请在以上相应方框内打“√”)
作者签名:哆鸯色数 日期:≯咖年7月,日
导师签名:枷事 吼钾年7月夕日
、钧/吐
J1·1 At
w 、了 4·
k hJF
3 4 7 f z
WEe-
,?.
,
. Jb 手ψ hm·
MW 锣54
飞飞 、
, K.
Aa 、吃tT uf
A
a 、
吃
t
FF ,?
基于DOM模型的网页净化系统设计与实现摘
基于DOM模型的网页净化系统设计与实现
摘 要
随着Internet技术的飞速发展,互联网上的信息成几何级数地增长。网络给 人们提供了大量信息的同时,也给人们快速准确的获取信息带来了挑战。为了能 有效地利用网页资源,就需要对这些资源进行预处理。预处理关键的问题之一是 去除掉网页中的噪音数据,即把与网页内容无关的广告、导航条以及版权等信息 尽量去除,以得到所需要的网页主题信息,也即网页净化。
本文首先介绍了网页净化的方法和技术。其中网页净化的方法包括基于网页 结构的方法、基于模版的方法和基于可视化信息的方法等。网页净化的技术则主 要有三个方面:信息提取、网页分块和网页适应。
接着,本文介绍了可扩展超文本标记语言和文档对象模型的概念及其结构。 在此基础上,本文提出了一种基于网页布局的文档对象模型(WLB DOM模型), 该模型的建立包括预处理、标签过滤和模型建立等过程,文中详细介绍了该模型 的结构和构建方法。
然后,本文提出了一种基于WLB DOM模型的网页净化算法,这是一种基于 网页结构的方法和基于可视化信息的方法相结合的算法。该算法认为网页中同层 布局空间最大的块即主题信息所在块。为了验证本算法的正确性和有效性,对来 自CWT200G测试集的部分语料进行了实验,实验结果表明该算法有较高的准确 率。
最后,本文在提出的模型和算法基础上,在Microsoft Visual Studio 2008开发 平台下,用C{fj}语言实现了一个基于WLB DOM模型的网页净化系统原型。
—一≯■%汹瓷器.’扎礼≯讼嚣母蛀玑地滞≮心‰o簪事∞帮膏藩扎≯∥多~势一圣冷毒毒j}=爹。≥0∥:..o;气,..,≯o.≥t 关键词:网页净化;网页噪音;DOM;网页分块
::
%: 玉 酱 毒 每
lI
应-可飞玲 在 如rm 撞,
咬 1
r·♂ 。,
. hh4旬
她们护了·布
-, . ·
、-hhA萨74哑APG作吧?kffdc 也亏轧y
卢:元
-,, · ,
., ‘ ‘ ·
:、‘吨lh , , 马Jtdtn z 1e t-Jγe
:
、‘
吨l
Mg J
? : l
‘;、, , ·,
‘
;
、
吮歹、-
吮歹
、
e -
fMH ,,
工程硕十学位论文
工程硕十学位论文
===!!=!!=!==!!!====!!==!=!========!!!!====!!!==!!==!!!!=!!=!!=!=!!==!=!==!!!!!!!==!!!!!=2=2
Abstract
With the rapid development of the Internet techniques,the information
您可能关注的文档
- 基于DNA条形码的细小种子类及含靛玉红类中药材的鉴定研究-中药学专业论文.docx
- 基于DNA条形码及UFLC技术的藏药翼首草遗传-化学相关性研究-药物分析学专业论文.docx
- 基于DNA条形码及实时荧光定量PCR技术的燕窝鉴别研究-中药学专业论文.docx
- 基于DNA微阵列数据的基因差异共表达分析研究-通信与信息系统专业论文.docx
- 基于DNA相互作用的草酰二胺多核配合物的合成 结构及抗肿瘤活性研究-药物化学专业论文.docx
- 基于DNA序列4D表示的相似性分析与进化树算法研究-模式识别与智能系统专业论文.docx
- 基于DNA与新型材料的荧光生物传感器的构建及应用研究-分析化学专业论文.docx
- 基于DNC的HUGON数控机床联网系统的设计与实现-机械工程专业论文.docx
- 基于DNC技术的二层车间控制模式的研究和应用-机械制造及其自动化专业论文.docx
- 基于DNC软插件技术集成化生产管理系统研究与实践-机械工程(机械制造及其自动化)专业论文.docx
- 基于DOM树的web新闻正文抽取技术的研究与实现-管理科学与工程专业论文.docx
- 基于DOM信息抽取技术的网页自动翻译方法的应用研究-软件工程专业论文.docx
- 基于DotLucene网站全文搜索系统的实现-计算机应用专业论文.docx
- 基于DotNet的社区信息化平台设计与开发-软件工程专业论文.docx
- 基于DotNet和WebGIS的旅游地理信息系统的研究与实现-软件工程专业论文.docx
- 基于dotnet环境下Web服务安全性研究与实现-计算机应用技术专业论文.docx
- 基于DPAS主动式配电网无功优化混合算法研究-电气工程;电力系统及其自动化专业论文.docx
- 基于DPI的P2P流量识别方法研究-计算机软件与理论专业论文.docx
- 基于DPI的P2P应用识别与流量控制-计算机技术专业论文.docx
- 基于DPI的即时通信软件监测系统的研究与实现-信息网络专业论文.docx
文档评论(0)