基于HTMLParser视频信息抽取系统设计与实现.docVIP

下载本文档

1
0
约5.34千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于HTMLParser视频信息抽取系统设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HTMLParser视频信息抽取系统设计与实现

基于HTMLParser视频信息抽取系统设计与实现　　摘要目前视频网站成为人们上网时不可或缺的娱乐途径，但现在的视频网站对视频的分类以及描述参差不齐，其主要原因就是没有构建统一的视频信息知识库，而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深入分析视频类网站页面的树形结构的构架，并基于HTMLParser 的信息提取方法，从种子页面中提取出相关的视频信息用于视频信息知识库的构建。　　关键词网络爬虫；视频爬取；HTMLParser 　　中图分类号TP39 文献标识码A 文章编号 1674-6708（2011）55-0207-02 　　随着互联网的普及，越来越多的人们把自己的娱乐时间投入到网络视频上，而面对海量的视频人们只能通过视频网站的介绍决定自己是否感兴趣，而往往各个视频网站对同一视频的描述以及分类会有不同，这使得用户不能得到关于视频的准确描述信息，为了应对这样的挑战，我们需要构建一个统一的视频信息知识库，而构建知识库的核心技术就是网络爬虫的设计。视频信息抽取系统在这样的研究背景下产生，目前信息抽取的关键技术有：命名实体识别，句法分析，篇章分析与推理，知识获取。针对视频网站页面的特点，我们需要直接抽取相关标签中的视频信息。　　1 HTMLParser与Node 　　1.1 HTMLParser 　　爬虫程序中，对于HTML网页的处理是核心的一个环节。对于Java来说，HTMLParser是比较著名并且得到广泛应用的一个。HTMLParser的主页是http：///，最后的更新是2006年9月的1.6版。HTMLParser具有小巧，快速的优点，缺点是相关文档比较少，很多功能需要自己摸索。HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：　　public Parser (); 　　public Parser (Lexer lexer， ParserFeedback fb); 　　public Parser (URLConnection connection 　　ParserFeedback fb) throws ParserException; 　　public Parser (String resource，　　ParserFeedback feedback) throws ParserException; 　　public Parser (String resource) throws ParserException; 　　public Parser (Lexer lexer); 　　public Parser (URLConnection connection) throws ParserException; 　　和一个静态类 public static Parser createParser (String html， String charset); 　　对于大多数使用者来说，使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser，或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单，是针对调试和跟踪分析过程的，一般不需要改变。　　1.2 Node 　　HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。它的定义如下：public interface Node extends Cloneable; 具体对节点的操作就是通过Node的成员函数实现。　　2 系统的结构及实现　　本系统首先利用HTMLParser递归抽取各视频URL信息，然后再利用得到的URL抽取对应视频的详细信息。　　2.1 抽取网站内视频信息算法输入：某一视频网站播放页面地址（URL）。　　输出：此网站内视频的详细信息。　　算法：　　1）提取页面视频URL（n个）；　　2）递归处理页面的n个视频URL，分别提取各URL对应页面上的n个视频的URL信息；　　3）将抽取到的视频URL保存至数据库；　　4）分析URL对应页面并提取相关视频信息，并将其保存至数据库。　　2.2 系统结构　　1）抽取网站内部所有视频URL模块　　该模块实现的主要功能是利用HTMLParser包通过递归抽取各页面中的视频URL。　　2）抽取各URL对应页面视频信息模块　　该模块的功能是首先从之前抽取到的URL获得该URL对应视频页面的字符流，然后通过解析这些字符流从中得到此页面对应视频的详细信息。　　3）存储模块　　该模块利用