互联网中XML网页的链接解析与信息采集.docVIP

互联网中XML网页的链接解析与信息采集.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网中XML网页的链接解析与信息采集 中国科学院计算机网络信息中心 杜义华 焦文彬 摘要: 文章分析和介绍对互联网中XML+XSL网页资源链接解析和内容采集的方法,包括传统HTML中链接解析、XML转换为HTML后链接解析、手工定制下XML链接解析和传统HTML信息采集、XML信息抽取、XML转换为HTML的信息采集等。 关键词:互联网信息采集 链接解析 XML资源 中图法分类号:TP393 文献标识码:A 文章编号: Link Analysis and Info-mining of Internet Resources Based on XML/XSL Yihua Du, WenBing Jiao Computer Network Information Center, Chinese Academy of Sciences (CNIC,CAS) Abstract: The paper analyzes and introduces the method of link analysis and content collection of Internet Resources based on XML/XSL web pages, including the analysis of traditional HMTL links, HTML links derived from XML, hand customerized XML links, traditional HTML info-mining, XML info-extraction directives, HTML info-mining derived from XML, etc. Keywords:Internet Info-mining;Link Analysis;XML resources 互联网中有海量数据信息,目前网站页面多为HTML格式,由于HTML标记日益臃肿,文件结构缺乏条理,描述能力有限、有效数据提取复杂等已不再能满足网络上新的应用需求,作为W3C推荐的下一代网页发布语言,XML+XSL方式是大势所趋,现已有一些网站如37c医学网、赛迪网等应用。但目前的各大搜索引檠Spider系统和互联网信息智能采集系统均为其于HTML格式的链接解析和内容提取,对XML检索无法支持或有很大局限性[1]。 网页链接解析 链接解析用于跟踪网站的新信息和进一步发现资源,即互联网上未知信息搜索[2]。 1、传统HTML中链接解析 传统HTML中标记定义明确,表示超链接用的标记有限。解析过程一般为取网页源文件中 href= 到 /a 间、area 到 块内的href= 到 shape= 间,frame 到 块的 src= 与 间所有内容,然后剔除其中与间内容、单引号、双引号等干扰信息,对每块链接部分根据是否含号可分出链接网址部分和链接标题部分,将链接网址部分与网页网址(URL)比较分析等进一步获取完整的URL,链接文字部分若没有或不合法可进一步取它们源文件中title与title间内容。 2、XML转换为HTML后链接解析 XML使用DTD显示数据,使用XSL描述文档显示,XML格式网页中各节点自行灵活定义,无法按传统HTML方式解析。 正如流览器在识别XML+XSL格式网页时先在客户端解析一样,我们也可以先利用XSL将XML转变成HTML语言再按传统HTML方式解析。方法为在获取XML源文件内容时,通过获取其中XSL文件地址,然后利用XML解析器(XMLDOM)将他们转结合转换为HTML[3]。 3、手工定制下XML链接解析 通过转换为HTML语言后解析链接比较通用,适合全范围解析。由于相关超链接信息均存在XML文件的某类节点中,每次使用XSL转换会有性能上不必要开支,因此有时,特别是对某类网站信息定向跟踪时,为更高性能或仅为获取所需的部分链接,有必要采用手工定制的链接解析。 手工配置方法是先人为查看源XML或XSL(流览器中查看源文件),找到超链接(包括文字、图片、附件)用节点名,添加在配置文件的xmlhref项中,系统解析时依此进行。同一个XSL文档对应的XML是同构的,故采用按每一个XSL文档指定所对应的hreftext(链接用文字)和hreflink(链接的网址)信息。 如对/的新闻频道网页中相关链接部分在配置config.xml中格式如下: xmlhref xslsite xslfile /info/info01/info01_detail.xsl xslfile hreftext ritems/ item /itemtitle hreftext hreflink ritems/ item / itemhref hreflink / xsls

文档评论(0)

638922bb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档