第四节　文本数据处理数据可视化大数据典型应用同步练课件高中信息技术必修1 数据与计算.pptxVIP

第四节　文本数据处理数据可视化大数据典型应用同步练课件高中信息技术必修1 数据与计算.pptx

;;1.文本数据处理的主要步骤由下列部分组成:

①分词②文本数据获取③规律排列

④数据分析⑤结果呈现⑥特征提取

正确的顺序是()

A.②①⑥③④⑤ B.②⑤①④⑥

C.②①⑥④⑤ D.①②③⑤④⑥

【解析】典型的文本数据处理过程主要包括分词、特征提取、数据分析、结果呈现等,没有“规律排列”这一步骤。;2.下列选项中,不.是.常用中文分词算法的是()

A.基于字符匹配的分词方法

B.基于统计的分词方法

C.基于规则的分词方法

D.基于人工操作的分词方法

【解析】常用的中文分词算法有基于词典的分词方法(也称作基于字符匹配的分词方法)、基于统计的分词方法、基于规则的分词方法。;3.Python中可以实现对中文文本进行分词的模块是()

A.pandas B.matplotlib

C.wordcloud D.jieba

【解析】Python的中文分词模块jieba是基于字典的分词方法。;4.下列关于分词的说法,正确的是()

A.分词就是将一个汉字序列切分成一个个单独的词

B.中文分词不涉及复杂的关键词提取方法

C.目前的分词算法已经实现了完全准确的分词

D.常用的中文分词方法只有一种

【解析】英文分词不涉及复杂的关键词提取方法;目前分词算法还不能实现完全准确的分词;常用的中文分词方法有三种。;5.

更多 >