项目介绍应用正则表达式进行文本清洗高效读取文件批量新闻文本.pptxVIP

项目介绍应用正则表达式进行文本清洗高效读取文件批量新闻文本.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本数据清洗;;;;思考

我们采集的文本数据经常会存在各种问题,比如:数据不完整,格式不一致,不同信息系统不同数据不一致,简繁体不一致等,而且我们采集到的数据量是非常大的,我们要如何才能对这些数据进行快速读取,快速清洗呢?;我们可以正则方法来清洗文本数据、利用高效读取文件的方法来完成批量文本的清洗。;本项目的目标是对我们准备的近30万条新闻语料进行快速读取,并利用正则方法完成文本数据的批量清洗;;语料可以理解为语言材料,包括口语材料和书面材料。语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。语料库有多种类型,确定类型的主要依据是它的研究目的和用途,。本章采用30余万条语料进行练习,语料构成如下:;;批量读取大量文件,我们有两种方式,一种是递归读取文件,别一种使用yield生成器读取文件。

我们可以通过比较它读取30万个文件所用的时间来确定它们的效率。;2-2高效读取文件;递归方式读取大量文件:;递归方式读取大量文件:;实验证明,递归方式完成约30万新闻文本的读取需花费48.29秒,这里还没有对文本任何操作,但随着数据量的增加,执行速度会越来越慢,因此递归不适合读取大量文件的场景。下面我们介绍yield生成器读取大量文件。;2-2高效读取文件;2-2高效读取文件;yield方式读取大量文件:;yield方式读取大量文件:;实验证明,yield生成器方式完成约30万新闻文本的读取需花费0.26秒,是递归方式的近180倍,可见,yield生成器优势巨大,随着对文件操作和数据量的增加,这种区别甚至可以达到指数级!;;思考

正则表达式是什么?它有什么特点?有什么用呢?怎么使用呢?; 正则表达式,又称规则表达式,(RegularExpression,在代码中常简写为regex、regexp或RE),是一种文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为元字符),是计算机科学的一个概念。

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式的特点是:

1.灵活性、逻辑性和功能性非常强;

2.可以迅速地用极简单的方式达到字符串的复杂控制。

3.对于刚接触的人来说,比较晦涩难懂。;正则表达式:;例1提取“0”结束的字符束:;例2提取指定字符“t”与t之间的子串:;例3提取“课程”前面的内容:;例4提取年份内容:;例5提取不同格式的日期内容:;步骤1:文本分析;步骤2:读取文本内容;步骤3:使用正则表达式进行清洗;步骤1:网页数据分析;步骤2:读取html内容;步骤3:使用正则表达式对HTML网页数据进行清洗(1);步骤3:使用正则表达式对HTML网页数据进行清洗(2);步骤1:需求分析;步骤2:下载简繁字体工具包zhtools;步骤3:代码编写;;?过程分析

1.使用yield方式批量读取文件内容

2.使用正则表达式进行数据清洗

3.打印输出清洗结果供查看,或者输出到文本文件中

4.检验结果,清洗完成;?1.高效读取文件;?2.正则进行清洗;?3.主函数进行调用;图13批量文本信息清洗结果;首先带大家认识语料库,并对递归遍历读取大量文件和使用yield方式读取文件进行了讲解和比较;然后讲解了正则表达式的应用以及使用正则表达式进行文本清洗,最后带大家进行批量新闻文本数据清洗。

通过本章的学习,希望大家能够对语料库、正则表达式有一个初步的认识,能够独立使用正则表达式进行文本清洗,能独立进行批量新闻文本数据清洗。;(1)独立使用正则表达式进行文本清洗

(2)独立进行批量新闻文本数据清洗;谢谢观看

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档