;
2;
;
;
;
黑名单匹配开源API接口调用
;;
问其是如何分辨这篇文章的主题是“世界杯”还是“娱乐”二分类问题
首先,如果小学生A家里没网没电视没报纸,那他肯定分辨不出来没有样本
小学生A家里新装了宽带,但是A骨骼惊奇,将网上的世界杯和娱乐新
闻全部转成了汉语拼音,然后得到结论,abafade几个拼音出现多的
就是世界杯特征提取有问题;
经过老师的指点,A重新改了特征(分词取汉语关键词出现频率),且大脑总结了一套算法,先看是否有一次“足球”,如果有再看有没有超
过2次“梅西”,如果有就基本95%确定是世界杯新闻了训练并使用了“决策树”机器学;;
,ngram=2,按字符抽取
得到[ct,tr,ri,ip]
计算ct的词频TF
TF=ct在[ct,tr,ri,ip]出现的次数1/数组长度4=0.25
计算ct的逆文档词频IDF
IDF=log(训练语句总数/(含ct的语句个数+1))=log(10000/11);
Precision:0.933
Recall:0.900
您可能关注的文档
- Docker安全实践分享.pptx
- 办公网络安全建设.pptx
- 奔赴一场阅读的盛宴.docx
- 打造两链找准诊改起点扎实推进试点工作.pptx
- 个人数据保护实践.pptx
- 个人与市场需求.pptx
- 基于 NIDS 构建纵深防御体系.pptx
- 基于 STC89C52 的智能小车设计.docx
- 坚持在发展中保障和改善民生.pptx
- 开源人工智能教育机器人简介及案例实践.pptx
- 陕2021TJ 054 燃气管道工程通用图集.docx
- 2015高三豫东豫北十校联考数学(文)试卷及答案(三).doc
- 2015高三豫东豫北十校联考数学(文)试卷及答案(三).docx
- 2015高三豫东豫北十校联考英语试卷及答案(三).doc
- 2015高三豫东豫北十校联考英语试卷及答案(三).docx
- 湖南长沙市2025_2026学年高三物理下学期开学试题.pdf
- ANSI HI 9.6.4-2022 旋转动力泵的振动测量和允许值-学习笔记.pdf
- DB32∕T 5370-2026 电子病历常用临床术语数据元属性与值域代码.docx
- 护理护理团队管理与建设.pptx
- 重症医学科医院感染控制原则专家共识解读.pptx
原创力文档

文档评论(0)