Weka[35 StringToWordVector源代码分析.docVIP

下载本文档

25
0
约 13页
2016-10-17 发布于贵州
举报

Weka[35 StringToWordVector源代码分析.doc

Weka[35 StringToWordVector源代码分析

Weka[35] StringToWordVector 源代码分析作者：Koala++/屈伟最近使用 wvtool 去算 tf-idf，但它要求输入是文件，而我的数据都是很短的几句话，然而个数很多，我试着产生 300 万个文件，产生个字典十几个小时都完成不了，并且给我的硬盘还很小，才 100G，一下就用完了，删除也要花无数个小时才能把这些小文件删除，所以我想如果可以以行为单位，而不是以文件为单位，可以自己定义行的解析函数，这样速度会提高很多，因为没有那么多的 I/O 操作了。本想写出来一个的，但是我的计算机很慢（让我用，我很难会感觉哪个计算机快），数据一加载就不动了，耐性有限，我也没心情做了。下面的代码是从黄少力他们那里要来的，我当时只知道有这么回事，到底怎么用的，也懒得去 google 了，就直接拿来用了。如果只用 weka，这也可以。我自己用王义以前的代码写了一个 wvtool 产生 VSM 模型，最后产生 libsvm 数据集，还可以进一步生成.arff 的代码（网上的转换不能将产生真实的属性名），这代码我好像写过 3 次，一次用 c++，两次用 java，每次都以为是最后一次用。 /** * 预处理数据集，并生成Arff文件格式 * @param dataDir * @param desTi 原始文档目录存储的目标文件 * @thro

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Weka[35 StringToWordVector源代码分析.docVIP