Internet中海量信息处理方法的优化研究.docVIP

下载本文档

8
0
约 9页
2016-11-23 发布于北京
举报
版权申诉

Internet中海量信息处理方法的优化研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Internet中海量信息处理方法的优化研究.doc

Internet中海量信息处理方法的优化研究　　摘要：随着Internet的迅猛发展和日益普及，电子信息迅速膨胀，如何有效地组织和管理这些信息，并快速、准确、全面地从中找到用户所需要的信息是当前信息科学领域面临的一大挑战。对Internet中的海量信息的处理进行了研究，探讨了海量信息的优化处理方法及其查询优化，在一定程度上提高了用户从海量信息获取有用信息的效率。　　关键词：海量信息；优化处理；数据挖掘；查询优化　　中图分类号：TP391 文献标识码：A 文章编号2012）011010503 　　作者简介：段艳明（1978-），女，硕士，河池学院计算机与信息科学系讲师，研究方向为数据库和人工智能；肖辉辉（1977-），男，硕士，河池学院计算机与信息科学系讲师，研究方向为数据库和GIS。　　0 引言　　随着信息技术的发展和互联网的普及，在Internet中有着数以亿计的网页，成千上万的TB数据，包括文本、图像、声音、影像等等。另外，Internet中每天有数十万的网页更新，数百万的新网页加入，使得其信息丰富而复杂，在网络上获取任何信息已成为可能，但获取准确、有效的信息，成了计算机技术发展需要解决的主要问题，对Internet中海量信息的有效处理的需求越来越迫切。　　海量数据的优化处理，一方面要合理使用数据库工具和合理分配系统资源；另一方面要有好的处理方法。好的优化处理方法及其优化查询能进一步提供查询效率，提高用户的查全率和查准率。　　1 海量信息的优化处理方法　　1.1 选择合适的数据库　　海量数据的处理对所使用的数据库工具的要求比较高，一般情况下使用Oracle、DB2或者微软的SQL Server2005。另外在BI领域、数据库、数据仓库、多维数据库和数据挖掘等相关工具也要进行选择，较好的ELT工具和较好的OLAP工具对海量数据的有效处理都是十分必要，例如Informatic、Eassbase等。　　1.2 优化程序代码　　处理数据离不开优秀的程序代码，尤其是对海量复杂数据处理时，必须使用程序。优良的程序代码对海量数据的处理至关重要，可以提高数据处理的准确度和效率。好的程序代码包括好的算法、流程处理、效率和异常处理机制等。　　1.3 数据分区操作　　对海量数据进行分区操作可以提高处理速度，像按月份存取的数据，可以按月份进行分区，例如移动手机话费查询系统。不同的数据库管理系统有不同的分区方式，单处理机制大体相同，像SQL Server数据库管理系统分区是将不同的数据存储在不同的文件组下，而不同的文件组又存储在不同的磁盘分区下，这样即可分散数据，以减少磁盘I/O和系统负荷。　　1.4 建立索引　　针对海量的数据处理，在大表上建立索引可以提高处理效率。但建立索引要考虑到具体情况，大表的分组、排序等字段，应该建立相应索引及复合索引。但对于插入操作较频繁的表要慎重建立索引，例如：在一个ETL流程中，若先建立了索引，在聚合操作完成后，当再次进行插入数据操作时，则要先删除索引，然后才能插入数据。所以，在海量数据处理时要在恰当的时候用索引，并且要考虑到索引的填充因子和聚集、非聚集索引等。　　1.5 分批处理　　海量数据处理难的主要原因在于数量大，我们可以对海量数据分批处理，再把处理后的数据进行合并操作，这样，可以避免海量数据处理带来的诸多问题。但采用这种方法处理海量数据时要因时因势进行，如果某些数据不允许拆分，则不能对其进行分批处理。一般按时间、按部门、按地域等存储的数据，都可以采用先分批后合并结果的方法，即对数据进行分批处理。　　1.6 采用文本格式存储数据　　利用程序处理数据有程序操作数据库和程序操作文本两种方法，但对海量数据的处理一定要选择程序操作文本，因为程序操作文本的速度快，对文本格式数据进行处理时不容易出错，且文本格式数据的存储不受限制。例如海量的Internet日志一般都是文本格式，最好利用程序对其进行数据清洗处理，而不应先把海量的Internet日志导入数据库再做清洗处理的操作。　　1.7 使用数据仓库和多维数据库　　在系统的开发中，当数据量增大时可以利用OLAP技术，即建立数据仓库，建立多维数据集，基于多维数据集进行报表展现和数据挖掘等，基于Cube的查询在很大程度上能提高数据的查询效率。因此，OLAP多维分析是处理海量数据的利器之一。　　2 海量信息的查询优化　　2.1 优化SQL查询语句　　在海量数据中进行查询处理时， SQL查询语句的性能很大程度上决定着查询效率，高效优良的SQL脚本和存储过程能提高其查询速度。　　（1）避免在SQL查询语句中使用select * from table，应用表中具体的