- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
编辑距离:是指两个字串之间,由一个转成另一个所需的最少编辑操作次数;俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念;编辑距离越小的两个字符串越相像,当编辑距离为0时,两字符串相等。
距离:两个子串之间的“差异”叫做距离。
海明距离:相同位相同值的个数。
Hash函数:就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不行能从散列值来确定唯一的输入值。简洁的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
Simhash算法:分为5个步骤:分词(带权重w)、hash(得hash值)、加权(hash值*w)、合并(多关键词)、降维(海明距离)。
算法伪代码:
1,将一个f维的向量V初始化为0;f位的二进制数S初始化为0;
2,对每一个特征:用传统的hash算法对该特征产生一个f位的签名b。对i=1到f:
假如b的第i位为1,则V的第i个元素加上该特征的权重;
否则,V的第i个元素减去该特征的权重。
3,假如V的第i个元素大于0,则S的第i位为1,否则为0;
4,输出S作为签名。
通配符:一种特别语句,主要有星号(*)和问号(?),用来模糊搜寻文件。当查找文件夹时,可以使用它来代替一个或多个真正字符;当不知道真正字符或者懒得输入完整名字时,经常使用通配符代替一个或多个真正的字符。
TF词频(Term Frequency):是指某一个给定的词语在该文件中消失的次数。一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中消失的次数成正比增加,但同时会随着它在语料库中消失的频率成反比下降。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语?来说,它的重要性可表示为:。
以上式子中?是该词在文件中的消失次数,而分母则是在文件中全部字词的消失次数之和。
逆文档频率(IDF):文档频率的倒数。主要用在TF-IDF中。?是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:。
其中为语料库中文件总数,包含词语的文件数目(即的文件数目)。
TF-IDF:(TF*IDF)即。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
Bloom Filter:是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员。采纳哈希函数的方法,将一个元素映射到一个 m 长度的阵列上的一个点,当这个点是 1 时,那么这个元素在集合内,反之则不在集合内。这个方法的缺点就是当检测的元素许多的时候可能有冲突,解决方法就是使用 k 个哈希 函数对应 k 个点,假如全部点都是 1 的话,那么元素在集合内,假如有 0 的话,元素则不在集合内。
欧几里得距离:n维空间中两点的实际距离。
局部敏感散列(Local-Sensitive Hash, LSH):
K最近邻(k-Nearest Neighbor,KNN)分类算法:是一个理论上比较成熟的方法,也是最简洁的机器学习算法之一。该方法的思路是:假如一个样本在特征空间中的k个最相像(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。
算法的描述为:
1)计算测试数据与各个训练数据之间的距离;
2)根据距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的消失频率;
5)返回前K个点中消失频率最高的类别作为测试数据的猜测分类。
Gram(也称为N元模型):区分于编辑距离的一种表达关键词间“差异”的方法。是自然语言处理中一个特别重要的概念。假设有一个字符串?,那么该字符串的N-Gram就表示按长度N切分原词得到的词段,也就是全部长度为N的子字符串。
引用lucene的JAR包调用函数相关函数可以实现非重复N-Gram:
import org.apache.lucene.search.spell.*;
public class NGram_distance {
public static void main(String[] args) {
NGramDistance ng = new NGramDistance();
float score1 =
您可能关注的文档
最近下载
- 2025--2026学年人教PEP版英语三年级上册期中测试卷(含答案,含听力原文,无听力音频).pdf VIP
- 项目资源管理课件.pptx VIP
- 2.2大气的组成和垂直分层课件高中地理中图版(2019)必修一.pptx VIP
- 第二章 呼吸系统疾病病人的护理(23%).pptx VIP
- 道路运输企业安全检查表 .pdf VIP
- 期中试题2024-2025学年人教精通版(2024)英语三年级上册(含答案).pdf VIP
- 自制原伴唱双音轨KTV卡拉OK歌曲.pdf VIP
- 物流运输车辆进厂前安全检查表.doc VIP
- 西方视角下的中国形象史研究问题及领域探讨.docx VIP
- 小学科学实验目录1-6年级.pdf VIP
原创力文档


文档评论(0)