第15课 Spark 特征抽取CountVectorizer——[Spark精品资源].pdfVIP

第15课 Spark 特征抽取CountVectorizer——[Spark精品资源].pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
旗开得胜 Spark 特征抽取 CountVectorizer 【实验名称】 Spark 特征抽取 CountVectorizer 【实验目的】 (1)了解Spark 特征抽取 CountVectorizer 方法。 (2)掌握构建一个机器学习工作流。 【实验要求】 实验结束后,学生能够自行构建一个 CountVectorizer 机器学习模型,Cou ntVectorizerModel 指定一个先验词汇表来直接生成训练模型。 【实验环境】 1、1 台 Centos6.8 虚拟机 2、虚拟机上安装伪分布式或者分布式 hadoop3.0 3、集群下所有虚拟机上安装 spark 2.3.1 4、一台虚拟机上安装 scala 2.12.4 1 读万卷书 行万里路 旗开得胜 【实验步骤】 1.实验原理 CountVectorizer 和 CountVectorizerModel 的目标是帮助将一个文档集 合转换成一个包含 token 计数的向量当没有预先的字典可用时。 CountVectorizer 可用作估计器来提取词汇表,生成 CountVectorizerModel。 该模型为文档中的文档生成稀疏的词汇表示形式,然后将这些文档传递给 LDA 等其他算法。 在拟合过程中,CountVectorizer 将在语料库中选择由词频排序最高的词 汇。一个可选的参数 minDF 也通过指定一个词汇必须出现在词汇表中的最小值 (或小于 1.0)来影响拟合过程。另一个可选的二进制切换参数控制输出向量。如 果设置为真,所有非零计数都设置为 1。这对于离散的概率模型来说尤其有用, 模型是二进制的,而不是整数的。 2.实验过程 2.1 进入 Spark-shell 环境 [rootmaster ~]# /opt/spark-2.3.1-bin-hadoop2.7/bin/spark-shell 2 读万卷书 行万里路 旗开得胜 2.2 导入 CountVectorizer 所需要的包 1. import org.apache.spark.SparkConf 2. import org.apache.spark.SparkContext 3. import org.apache.spark.sql.SQLContext 4. import org.apache.spark.ml.feature.{ CountVectorizer, CountVe ctorizerModel} 3 读万卷书 行万里路 旗开得胜 2.3 创建一个 SQLContext 并导入 sqlContext.implicits._来实现 RDD 到 Dataframe 的隐式转换 scala val sqlContext = new SQLContext(sc) scala import sqlContext.implicits._ 2.4 假设我们有如下的 DataFrame 包含 id 和 words 两列,一共有 两个文档。 scala

您可能关注的文档

文档评论(0)

ljszhw1972 + 关注
实名认证
文档贡献者

天津大学硕士、一级建造师,愿与大家共享经验与文档

版权声明书
用户编号:7153166103000005

1亿VIP精品文档

相关文档