- 25
- 0
- 约 13页
- 2016-10-17 发布于贵州
- 举报
Weka[35 StringToWordVector源代码分析
Weka[35] StringToWordVector 源代码分析
作者:Koala++/屈伟
最近使用 wvtool 去算 tf-idf,但它要求输入是文件,而我的数据都是很短的几句话,然
而个数很多,我试着产生 300 万个文件,产生个字典十几个小时都完成不了,并且给我的硬
盘还很小,才 100G,一下就用完了,删除也要花无数个小时才能把这些小文件删除,所以
我想如果可以以行为单位,而不是以文件为单位,可以自己定义行的解析函数,这样速度会
提高很多,因为没有那么多的 I/O 操作了。本想写出来一个的,但是我的计算机很慢(让我
用,我很难会感觉哪个计算机快),数据一加载就不动了,耐性有限,我也没心情做了。
下面的代码是从黄少力他们那里要来的,我当时只知道有这么回事,到底怎么用的,也
懒得去 google 了,就直接拿来用了。如果只用 weka,这也可以。我自己用王义以前的代码
写了一个 wvtool 产生 VSM 模型,最后产生 libsvm 数据集,还可以进一步生成.arff 的代码(网
上的转换不能将产生真实的属性名),这代码我好像写过 3 次,一次用 c++,两次用 java,每
次都以为是最后一次用。
/**
* 预处理数据集,并生成Arff文件格式
* @param dataDir
* @param desTi
原始文档目录
存储的目标文件
* @thro
原创力文档

文档评论(0)