1文本数据处理教学设计.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本数据处理教学设计

课程标准

教学目标

文本数据处理

教材内容:第四章4.2.3文本数据处理

适应的课程标准:

1.4通过典型的应用实例,了解数据采集、分析和可视化表达的基本方法。

1.5根据任务需求,选用恰当的软件工具或平台处理数据。

教学目标:

●了解文本数据处理目的、应用、一般过程和方法。

●了解中文分词常见算法及特征提取方式。

●了解标签云、文本情感分析及应用。

指向的核心素养:

●计算思维:了解数据采集、分析和可视化表达的基本方法,能够利用软件工具或平台对数据进行整理、组织、计算与呈现。

●数字化学习与创新:掌握数字化学习系统、学习资源与学习工具的操作技能,用于开展自主学习、协同工作、知识分享与创新创造。

教学环境:有教学控制软件的多媒体机房。

建议课时:1课时

教学活动设计

教学环节

教学过程

设计意图

新课导入

我们经常使用百度搜索引擎检索信息,每次搜索返回的结果数据对于搜索关键词的描述主要在哪些方面呢,例如:使用百度搜索“春节”,如图1所示,找到相关结果约100,000,000个,这些返回的结果数据对“春节”的关键特征描述是什么?

图1百度搜索“春节”

百度为您找到相关结果约100,000,000个

图2百度索索“春节”的部分结果

以百度搜索“春节”为例,分析问题:

解决这个问题,需要收集哪些数据?--百度搜索“春节”返回结果页面中的数据,如图2所示。

这些数据是什么类型的?--主要为非结构化文本数据。

如何处理这些数据才能获得答案?--要提炼对“春节”的关键特征描述,需要采集返回结果页面中的文本数据进行分析,下面请同学们通过实践与体验,探究这个问题。

引导学生从数据分析的视角思考问题,在数据分析实践中能根据数据分析的过程和方法,探究问题答案,导入新课。

自主学习

布置任务:自主阅读并实践教材第132页“实践与体验--中文分词与标签云”。

实践内容:使用“搜索抓取、中文分词与标签云生成”软件,收集感兴趣的数据,如春节、家乡的旅游景点、美食等,进行分词、词频统计并以标签云方式展现结果。

问题与思考:辨析该实践与体验中,文本数据处理的步骤及基本过程。

学生具备图表数据处理、Python编程处理数据的前知识和学习策略,带着问题、跟着教材进行实践探究,体验文本处理的基本过程:收集数据、分词、特征提取、数据分析、结果呈现等,解答导入问题,发展学生计算思维。同时,从全局上感受文本数据处理的过程和方法,为下面的聚焦研究“分词”“特征提取”“标签云”“情感分析”等做好铺垫。

学习评价

通过过程观察、个别指导、适时干预,推进实践进程。

交流导入问题的探究过程和结论,以搜索“春节”为例,如图4所示。

图4百度搜索“春节”结果数据标签云

总结文本数据处理的基本过程和主要步骤:

设计意图:通过过程观察和适时干预,保障实践活动顺利开展;通过交流、总结,促进学生对文本数据处理基本过程和主要步骤的理解,发展计算思维。

通过过程观察和适时干预,保障实践活动顺利开展;通过交流、总结,促进学生对文本数据处理基本过程和主要步骤的理解,发展计算思维。

自主学习

布置任务:聚焦“分词”“特征提取”“标签云”“情感分析”内容,开展分组探究。

第一组任务

基本任务(必做):

1.自主阅读教材第128页“(1)中文分词”部分,领会中文分词及中文分词的常见算法:基于词典的分词方法、基于统计的分词方法、基于规则的分词方法。

2.获取一段文本,存为UTF-8编码格式的文件“test_UTF8.txt”,使用“搜索抓取、中文分词与标签云生成”软件打开并进行分词,感悟分词的过程及方法。

拓展任务(选做):

通过互联网,对中文分词的算法进行拓展性学习,使用PPT整理归纳后进行分享。拓展性学习重点放在“基于词典的分词方法、基于统计的分词方法、基于规则的分词方法”。

第二组任务

基本任务(必做):

1.自主阅读教材第129页“(2)特征提取”部分,学习“特征词”“特征提取”“特征提取方式”等内容。

2.再次实践“中文分词与标签云”,感悟并思考以下问题:

(1)在中文文本分析中可以采用字、词或短语作为表示文本的特征项。本次实践活动中,是采用什么作为特征项的?

(2)本次实践活动中,是如何进行特征提取的?

(3)分析本次实践活动中的词频统计结果,去除高频出现词语中的无关项,描述本次实践提取来的最具代表性、最有效的文本特征。

拓展任务(选做):

通过互联网,对特征提取方式进行拓展性学习,使用PPT整理归纳后进行分享。拓展性学习重点放在“根据专家的知识挑选有价值的特征、用数学建模的方法构造评估函数自动选取特征。”。

第三组任务

基本任务(必做):

1.自主阅读教材第130页“文本数据分析与应用

文档评论(0)

156****8781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档