HtmlParser提取网页信息的设计和实现.pdf

下载文档

3
0
约1.17万字
约 5页
2017-06-17 发布于福建
举报
版权申诉
保障服务

HtmlParser提取网页信息的设计和实现.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第28卷第6期江西理工大学学报 V01．28．No．6 2 Dec．2007 文章编号：l007—1229(2007)06—0026—03 HtmlParser提取网页信息的设计与实现黄颖1，黄治平2 (I．江西理工大学信息工程学院．江西赣州341000；2赣南师范学院，江西赣州341000) 摘要：互联网上信息量的激增。迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息，如标题、链接、eⅡmil和图片等，而HTML语言所表述的web页面经浏览器分析后只适合浏览，不适舍作为一种数据交换的方式由机器处理．文中详细介绍了如何使用Htn·lPaner 来提取网页当中的超链接信息，将其清洗后存入SOL数据库当中，以备后续工作使用．关键词：HtIIllParser；信息提取；网页解析中图分类号：TP393．03文献标识码：A and ofWebInformation DesignImplementation ExtractionBasedOnHtmlParser HuANG Yin91，HuANGzM—pin92 (1．h皿lty0fIr血珊“∞Er咖。e|ing，Ji叽鲥u耐口畸0fscj删dT锄nolo科，G蚰z11011341000，chi雎 2．G蛐Ⅱ蚰‰h聃cdlE萨，G蚰zh伽3410【)0，chi衄) theweb incre鹊estheneedfor toolsto Abstract：The contents someautomatic the mpid掣帅曲of helppeople丘nd the iTI壬b皿1ation蚰urces etc．TheWeb ird硫1ation舢ongmagnanimous Buch髂tides，links，emails，Pieturesp89朗 Intemet suitahkfor notfor expre88edby肿ML，血er蚰alyzedby E1p10rer，a陀oIllybmwse，but 0f t0 to data hdwuseHtInlParserextract iIlfbmladon缸帅 ing曲tlleway exchange．Th。paperexpl血s hyperlink web storein datab船eaf№r ini—疏lad叩detail． page，then sQL cleaning Key wOrds：htIIllpa碍er；i血mllad蚰extraction；web衄alysis 0前言着与生俱来的缺点，HTML在推出时并没有对其格式进行严格的定义，比如HTML中标签并不一定要随着网络上信息资源的飞速增长．从网页数据成对出现，因而不适合以数据交换的方式由机器处源中提取出可利用的信息资源越来越显出它的重要性．提取web信息是为一系列复杂的后续工作服