Python数据分析课件:文本分类.pptxVIP

Python数据分析课件:文本分类.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本分类

文本分类文本分类是指按照一定的分类体系或标准,用电脑对文本集进行自动分类标记,主要的目的是将文本或文档自动地归类为一种或多种预定义的类别。

文本分类文本分类被广泛应用于解决各种商业领域的问题,常见应用包括:理解社交媒体用户的情感识别垃圾邮件与正常邮件自动标注用户的查询将新闻按已有的主题分类

文本分类文本分类的一般实现步骤如下:数据准备包括数据集以及基本的预处理工作,用于将原始语料格式化为同一格式,便于后续进行统一处理。特征抽取从文档中抽取出反映文档主题的特征。分类器模型会在一个有标注数据集上进行训练。模型训练分类器的测试结果分析。结果评价

文本分类读取数据集文件NameTestData.txt,打开时注意中文的编码方式。data=pd.read_csv(NameTestData.txt,sep=\t)print(data)输出结果显示共50438条记录,2个属性,姓名和性别。在单字名前填充空格。下面定义一个特征提取函数,接收一个人名,返回这个人名对应的后两个字,然后遍历数据中的每个姓名和性别,将姓名后两个字和性别整合成一个特征集,具体代码如下。defgender_features(word):#特征提取器#特征就是人名的后两个个汉字return{倒数第二个字:word[-2],最后一个字:word[-1]}features=[(gender_features(name),sex)for(name,sex)innames]features

文本分类应用朴素贝叶斯算法对数据进行训练,得到相应的模型。这里采用交叉验证的方式,把特征数据集分成10000个训练集和40000个测试集、20000个训练集和30000个测试集、30000个训练集和20000个测试集、40000个训练集和10000个测试集分别进行训练和测试,并通过测试集来估计分类器的准确性。最后测试一下模型,进一步判断特征选取的是否合理,模型是否有效。fornin[10000,20000,30000,40000]:train,test=features[n:],features[:50000-n]#使用训练集训练模型classifier=nltk.NaiveBayesClassifier.train(train)#通过测试集来估计分类器的准确性print(nltk.classify.accuracy(classifier,test))0.8917750.***333330.894050.877

文档评论(0)

ning2021 + 关注
实名认证
文档贡献者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档