- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;;;;;;;;;;;;;;3文本挖掘;3文本挖掘;3文本挖掘;3文本挖掘;;;;3文本挖掘;3文本挖掘;3文本挖掘;3文本挖掘;;;TF-IDF是TermFrequency-InverseDocumentFrequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。TF表示某个文档中的词频。IDF是“逆文档频率”表示一个词在所有文档中出现的总频率,修正仅仅用TF词频表示词重要性的局限。比如文档中会经常出现“的”字,其词频虽然高,但是重要性却很低。
TF(词频)=某个词在某文章出现次数/该文章总的词数量
IDF(逆文档频率)=log(所有文章的总数量/(包含该词的文章数量+1))
某个词的TF-IDF值=TF*IDF
;特征选取的方式:
(1)用映射或变换的方法把原始特征变换为较少的新特征;
(2)从原始特征中挑选出一些最具代表性的特征;
(3)根据专家的知识挑选最有影响的特征;
(4)用数学的方法(PCA)进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用;3文本挖掘;给定文档p,将文档分类为n个类别中的一个或多个。
分类类型:二分类(binary),多分类(multi-class),多标签分类(一个对象可以属于多类(multi-label)
常见:贝叶斯、逻辑回归、随机森林,SVM,KNN型,神经网络、深度学习文本分类模型。;贝叶斯文本分类;3文本挖掘;文本聚类是一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一类文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。;Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。把对文本内容的比较简化为向量空间中的向量运算,将文档D表达为一个矢量(有大小有方向),看作向量空间中的一个点并且以空间上的相似度表达语义的相似度,直观易懂。;向量空间余弦相似度(CosineSimilarity);37;LDA聚类隐含狄利克雷分布(LatentDirichletAllocation,LDA),是一种话题模型(topicmodel),它可以将文档集中每篇文档的主题按照概率分布的形式给出。LDA是一种使用联合分布来计算在给定观测变量下隐藏变量的条件分布(后验分布)的概率模型,观测变量为词的集合,隐藏变量为主题。
;4情感分析;4情感分析;5文本可视化;5文本可视化;5文本可视化;5文本可视化
原创力文档


文档评论(0)