Weka[35 StringToWordVector源代码分析.docVIP

  • 25
  • 0
  • 约 13页
  • 2016-10-17 发布于贵州
  • 举报
Weka[35 StringToWordVector源代码分析

Weka[35] StringToWordVector 源代码分析 作者:Koala++/屈伟 最近使用 wvtool 去算 tf-idf,但它要求输入是文件,而我的数据都是很短的几句话,然 而个数很多,我试着产生 300 万个文件,产生个字典十几个小时都完成不了,并且给我的硬 盘还很小,才 100G,一下就用完了,删除也要花无数个小时才能把这些小文件删除,所以 我想如果可以以行为单位,而不是以文件为单位,可以自己定义行的解析函数,这样速度会 提高很多,因为没有那么多的 I/O 操作了。本想写出来一个的,但是我的计算机很慢(让我 用,我很难会感觉哪个计算机快),数据一加载就不动了,耐性有限,我也没心情做了。 下面的代码是从黄少力他们那里要来的,我当时只知道有这么回事,到底怎么用的,也 懒得去 google 了,就直接拿来用了。如果只用 weka,这也可以。我自己用王义以前的代码 写了一个 wvtool 产生 VSM 模型,最后产生 libsvm 数据集,还可以进一步生成.arff 的代码(网 上的转换不能将产生真实的属性名),这代码我好像写过 3 次,一次用 c++,两次用 java,每 次都以为是最后一次用。 /** * 预处理数据集,并生成Arff文件格式 * @param dataDir * @param desTi 原始文档目录 存储的目标文件 * @thro

文档评论(0)

1亿VIP精品文档

相关文档