- 1、本文档共20页,其中可免费阅读6页,需付费160金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2
大规模文本文件处理
摘要
大规模文本文件处理在当前数据爆炸增长的时代具有非常广泛的应用和非常重要的研究意义。大容量存储硬盘 技术、计算能力和多核处理器的发展也为我们处理大规模数据成为了可能。
本文中,我们研究对大规模文本文件进行排序、去重、筛选和统计等不同方式的处理。排序是大规模文本文件 处理当中必不可少的功能,实现将无序的数据集合按照特定关键字重新排列成一个有序的序列。去重则可以通过消 除冗余的数据来优化冗余的数据集。筛选则可以按照筛选条件例如字符串长度、所包含字符类型和字符类型数筛选 出符合条件的数据集合。统计功能则可以统计数据集当中长度和字符类型数两个维度的数据分布。筛选和统计功能
文档评论(0)