机器学习及攻击检测.pptx

;

2;

;

;

;

黑名单匹配开源API接口调用

;;

问其是如何分辨这篇文章的主题是“世界杯”还是“娱乐”二分类问题

首先,如果小学生A家里没网没电视没报纸,那他肯定分辨不出来没有样本

小学生A家里新装了宽带,但是A骨骼惊奇,将网上的世界杯和娱乐新

闻全部转成了汉语拼音,然后得到结论,abafade几个拼音出现多的

就是世界杯特征提取有问题;

经过老师的指点,A重新改了特征(分词取汉语关键词出现频率),且大脑总结了一套算法,先看是否有一次“足球”,如果有再看有没有超

过2次“梅西”,如果有就基本95%确定是世界杯新闻了训练并使用了“决策树”机器学;;

,ngram=2,按字符抽取

得到[ct,tr,ri,ip]

计算ct的词频TF

TF=ct在[ct,tr,ri,ip]出现的次数1/数组长度4=0.25

计算ct的逆文档词频IDF

IDF=log(训练语句总数/(含ct的语句个数+1))=log(10000/11);

Precision:0.933

Recall:0.900

文档评论(0)

1亿VIP精品文档

相关文档