- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
旗开得胜
Spark 特征抽取 CountVectorizer
【实验名称】
Spark 特征抽取 CountVectorizer
【实验目的】
(1)了解Spark 特征抽取 CountVectorizer 方法。
(2)掌握构建一个机器学习工作流。
【实验要求】
实验结束后,学生能够自行构建一个 CountVectorizer 机器学习模型,Cou
ntVectorizerModel 指定一个先验词汇表来直接生成训练模型。
【实验环境】
1、1 台 Centos6.8 虚拟机
2、虚拟机上安装伪分布式或者分布式 hadoop3.0
3、集群下所有虚拟机上安装 spark 2.3.1
4、一台虚拟机上安装 scala 2.12.4
1
读万卷书 行万里路
旗开得胜
【实验步骤】
1.实验原理
CountVectorizer 和 CountVectorizerModel 的目标是帮助将一个文档集
合转换成一个包含 token 计数的向量当没有预先的字典可用时。
CountVectorizer 可用作估计器来提取词汇表,生成 CountVectorizerModel。
该模型为文档中的文档生成稀疏的词汇表示形式,然后将这些文档传递给 LDA
等其他算法。
在拟合过程中,CountVectorizer 将在语料库中选择由词频排序最高的词
汇。一个可选的参数 minDF 也通过指定一个词汇必须出现在词汇表中的最小值
(或小于 1.0)来影响拟合过程。另一个可选的二进制切换参数控制输出向量。如
果设置为真,所有非零计数都设置为 1。这对于离散的概率模型来说尤其有用,
模型是二进制的,而不是整数的。
2.实验过程
2.1 进入 Spark-shell 环境
[rootmaster ~]# /opt/spark-2.3.1-bin-hadoop2.7/bin/spark-shell
2
读万卷书 行万里路
旗开得胜
2.2 导入 CountVectorizer 所需要的包
1. import org.apache.spark.SparkConf
2. import org.apache.spark.SparkContext
3. import org.apache.spark.sql.SQLContext
4. import org.apache.spark.ml.feature.{ CountVectorizer, CountVe
ctorizerModel}
3
读万卷书 行万里路
旗开得胜
2.3 创建一个 SQLContext 并导入 sqlContext.implicits._来实现
RDD 到 Dataframe 的隐式转换
scala val sqlContext = new SQLContext(sc)
scala import sqlContext.implicits._
2.4 假设我们有如下的 DataFrame 包含 id 和 words 两列,一共有
两个文档。
scala
您可能关注的文档
- [顾家家居 内部培训]导购销售话术.pdf
- [基本药物临床应用]莘庄基药培训总结.pdf
- [七下数学 精品教案]第7课时 平行线的性质(一).pdf
- [苏教三数下 精品试卷]2015苏教版三年级数学下册期末试卷17.pdf
- 《“象征性”长跑》教学课件——[北师大五下数学精品].pdf
- 2.8-2.9 超声波的聚焦与发散 超声波的衰减——[无损检测].pdf
- 八上《6.1平均数》教案 (9)——[北师大版初中数学 精].pdf
- 八上《6.1平均数》教案 (10)——[北师大版初中数学 精].pdf
- 培训体系--有的放矢论培训[企业管理].pdf
- 人教版高中数学[同课异构]精品课件·选修4-5()课件:第二讲2.3反证法与放缩法 .pdf
- 时尚零售行业快时尚模式变革对品牌形象的影响报告.docx
- 2025年特斯拉新能源汽车产业链协同创新与发展趋势研究报告.docx
- 氢能源助力钢铁业节能减排:2025年技术创新与政策支持报告.docx
- 2025年特斯拉新能源汽车全球市场布局研究报告.docx
- 时尚零售行业快时尚模式变革下的消费者需求预测与市场拓展策略研究与应用策略报告.docx
- 时尚零售行业快时尚模式变革中的时尚跨界合作商业模式报告.docx
- 氢能源助力钢铁行业绿色制造:2025年脱碳技术应用与成本分析报告.docx
- 2025年物联网技术在智慧城市中的应用风险评估报告.docx
- 普惠金融2025年发展报告:金融科技应用效果与金融科技应用场景创新研究.docx
- 氢能源助力航空航天2025年绿色转型的路径与策略研究.docx
文档评论(0)