- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XML技术在大数据环境下运用探讨
XML技术在大数据环境下运用探讨
摘 要:随着信息化时代的不断发展,网络技术的不断成熟使得网上的信息也越来越丰富。在现阶段的数据库研究中也逐渐将关注点放在对网络中海量的信息的深度运用上面。文章对现在普遍流行的XML技术在大数据环境下的运用进行探讨,以其对Web数据信息收集、数据挖掘以及数据交换中的技术运用进行具体分析,希望能够借此加深对于XML技术的印象。
关键词:大数据环境;XML技术;Web数据挖掘
随着大数据时代的来临,大数据问题便从技术层面上升到了国家战略层面的最高层,研究大数据环境下的具体运用已经成为当前的一个比较重要的课题。在大数据的环境下,数据收集、数据挖掘以及数据交换上都迫切地需要进行创新和变革,可扩展的标记语言( Extensible MarkupLanguage,XML)技术在大数据环境下的运用,可以帮助我们更好地应对大数据环境所带来的机遇和挑战,促进我国科学技术创新能力的不断发展。
1 XML技术介绍
1.1 XML概念
XML作为一种描述性的标记语言,它也是标准通用标记语言。它是一套定义语义标记的规范,旨在能够对数据类型进行定义,便于人和计算机将其进行识别。它也是简单的数据存储语言,用来表述数据结构化的通用语言,是便于用户对自己的标记语言进行定义的元语言,其建立过程的方便性给用户的使用体验带来了很大的便利,成为当前大数据环境下数据处理的有力工具。
1.2 XML的核心技术
XML文档主要是由3个元素构成:文档类型定义DTD,可扩展样式表语言XSL以及可扩展链接语言XLL。在这3个元素具体的功能划分上,DTD是一套关于标记符的语法规则,对XML的文档起到了很好的描述作用,定义XML中相关元素及元素属性的关系;XSL控制XML文档显示时的版面以及对文字的显示进行处理;XLL是对XML的语言进行链接,使得不同用户根据自身的需求选取合适的使用方法‘1]。
1.3 XML技术的特点
XML设计的主要目的是为了传输和存储数据,其关注的焦点是数据的内容。在存储方面,它是以纯文本的格式进行存储的,不同于所有不兼容的软、硬件的数据存储方法,可以在各种不兼容的软、硬件中进行数据的存储,降低了数据交换的复杂性。XML具有扩展性的特点,它突破了HTML在扩展性上面的局限性,允许用户在定义标记时不受数量的限制,可以根据自身的需求对信息结构进行嵌套,方便用户的使用。在数据的搜索上它具有智能化的特征,借助于对各种信息所含元素的定义,它可以很好地对信息进行描述。同时XML技术还改变了传统的信息构造方式,使得互联网数据在传输上面更加快捷准确。由于在内容和应用上的分开,加上文档定义类型DTD只是对数据的结构、语义和存放等方式进行描述,没有涉及数据被显示等方面的问题,XML数据就可以被不同的程序进行运用,其又具有很好的复用性。XML还具有国际化的特点,由于其统一代码的编码标准,它支持世界上的大多数文字,便于计算机系统之间进行信息数据的交换,可以最大化地突破国际和不同文化疆界的信息交换的限制。
2 Web数据
2.1 Web上的数据特点
World Wide Web是由巨大的、异构的以及半结构化和动态的基于超链接的超媒体文档所构成的数据库,从数据库的角度出发,Web网站上的信息具有多元化、半结构化、动态化以及分散性等特点,使得信息的处理更加的复杂和庞大。对于Web数据的使用来说,尽管现阶段已经取得了一些成果,但是在异构数据环境、半结构化数据环境以及较强动态性数据源上还是存在着较多的不足。例如,从用户的角度出发,由于每个用户群体的背景及使用目的的不同,使得Web上的信息量的使用较为复杂,加大了相关工作的难度[2]。
2.2 XML技术运用在Web数据中的优势
虽然HTML和XML都是对Web文档的语言进行描述的工具,但是XML的灵活性较高,能够对数据本身进行很细致的描述,使得它很容易与数据库中的属性一一对应,凭借其在增加结构及语义信息上的??势,解决了Internet发展速度快而接入速度慢等问题,扩大了服务器处理信息的容量。在现阶段的Web数据应用中,XML已经成为正式的规范,开发人员借助XML在相关技术上的优势,进行数据交换和格式的处理。XML具有可升级的3层模型,可以帮助其从存在的数据中分离出来,并且其结构化的数据可以从商业规范和表现的形式中进行分离。在异构数据的集成的实现上,基于Web数据的多样性和非结构化,传统的文档的查询和分析方法效率较低,正确性较低;但是运用XML技术,可以大大提高文档的结构化程度,便于分析性的内容数据库的建立。XML的中间层技术,可以在改进站点设计、提供个性化服务等方面起到良好的作用。XML的中间层技术可以将数据进行结构化,
文档评论(0)