基于jsoiipWeb页面自适应转换系统实现.docVIP

下载本文档

6
0
约5.28千字
约 10页
2018-08-28 发布于福建
举报
版权申诉

基于jsoiipWeb页面自适应转换系统实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于jsoiipWeb页面自适应转换系统实现

基于jsoiipWeb页面自适应转换系统实现　　摘要　　本文针对传统Web应用程序无法适配移动终端的问题，设计了一种基于jsoup的Web页面自适应转换系统，暑重对系统中文本信息提取和前端页面重组技术进行了研究分析，讨论了具体的实施方法，解决了Web页面自适应转换技术限制，为传统Web应用程序升级过程中提供了一种降低成本的有效方法。　　【关键词】jsoup 自适应转换系统　　随着移动互联网的快速发展，Web应用程序能够适配多种终端己成为一种趋势。虽然已有一部分Web应用程序在升级改版过程中直接采用了响应式设计的方式，但由于系统升级改版存在的工作量大、成本高等问题，国内仍然有很多Web应用程序仅支持PC端访问，针对移动终端的开发工作进展十分缓慢。这也就意味着当用户使用PC的浏览器访问网页时能够正常显示，当用户使用移动终端的浏览器访问网页时，会出现文字和图片缩小显示的情况，导致用户只能在移动终端上对Web页面进行拖曳、放大等手势操作，与Web页面交互极为不便，用户体验较差。针对以上问题，本文提出了一种基于jsoup的Web页面自动转换系统，通过Web页面信息抽取、前端处理等相关技术将传统的Web页面转换为响应式Web页面，从而打破了移动终端无法适配传统Web网页的技术性限制。　　1系统总体设计　　Web应用程序都部署在应用所有者的专用服?掌髦校?非应用所有者无法对该应用程序直接进行修改，用户通过移动终端直接访问Web应用程序无法达到Web页面自动转换目的。因此，本文提出的Web页面自适应转换系统需要通过用户终端访问网页转换代理服务器来完成对目标Web应用程序的资源请求任务，网页转换代理服务器对请求返回的资源进行信息提取和页面重构工作，仅做资源加工处理而不进行资源存储，代理服务器直接将转码结果反馈给用户的访问终端。Web页面自适应技术方案的整体结构如图1所示。　　Web页面自适应转换系统的具体运行流程如图2所示。用户使用移动终端访问己部署Web应用程序转换系统的代理服务器，设置目标Web应用程序网络地址，网页转换系统通过Web页面的iframe浮动框架技术请求加载Web应用程序，方便用户观察目标Web应用程序是否能够正常访问。当Web应用程序加载完成后，网页转换系统的信息提取模块基于jsoup对Web页面进行信息提取工作，主要分为文本信息提取和资源路径的提取。文本信息提取是指提取目标网页中的重要文本内容，例如导航、信息列表、正文等；为了保证转换完成的网页继承目标网页的整体风格，资源路径提取是指通过代理服务器提取目标网页中资源路径，例如网页头部加载的CSS，Javascript以及文本内容对应的超链接。最后，基于Web前端处理技术将目标网页重构为适合移动终端访问的响应式页面，同时加载提取的资源路径，将最终生成的移动端页面反馈给用户。　　2关键技术分析　　2.1文本信息提取技术　　本文提出的Web页面自适应技术通过网页转换代理服务器来向目标Web应用程序请求资源，每一次资源正确加载完成后，网页转换系统需要执行Web页面信息提取任务，其可以分解为Web页面文本提取和资源路径提取两项子任务。Web应用程序整体的资源路径通常会定义在Web页面头部，通过对页面头部进行HTML标签解析很容易能够获得。Web页面文本提取相对比较复杂，这也正是本文研究的Web页面自适应转换系统的关键技术之一。对国内外的文献进行分析可以发现，Web页面的文本提取技术基本可以分为两类：基于DOM的Web页面文本提取技术和非基于DOM的Web页面提取技术。通常很多研究者会采用基于DOM的Web页面文本提取技术，其技术发展比较成熟。Web页面的标签和标签之间、标签和内容之间都存在着层次关系，DOM树是描述Web页面结构的常用方法，DOM树的叶子节点通常就是要提取的文本信息。因此，通过一定的算法对Web页面的DOM树进行遍历，进行相应的筛查降噪处理之后，可以得到目标的文本内容。在实际的应用过程中，利用Web页面解析工具进行页面解析，并修正其中不规范的地方，构建Web页面的DOM树并进行递归遍历，识别其中的非主要文本信息，比如广告、图像等内容，将噪声节点移除即得到文本信息。比较经典的方法如2007年刘秉权等人提出的基于结构树解析的网页正文抽取方法。该算法除了把分散的Web页面解析为有序的DOM树以外，还利用了中文网页页面结构相似及文本信息分布聚集的特性，在移动平台的新闻信息自动分类系统中得到了很好的应用。文献2《网页信息提取与净化的研究》提出了一种让用户设置参数来对Web页面构建的DOM树进行节点筛查处理方法，并实现了对同一模板的Web页面集合可进行自动降噪处理，增强了系统的通用性和交互性。孙明柱等人提出了基于结构树的网页正文内容抽取