用朴素贝叶斯算法实现文本分类.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用朴素贝叶斯算法实现文本分类

AI实验:用朴素贝叶斯算法实现文本分类学 院: 计算机科学与工程学院 班 级:   03计联     组 别:  第二组   姓 名:  洪泸楷 学 号: 200340001073 指导老师: 陈  琼 一、实验内容:1. 数据采集1) 下载Cornell University,Washington University,Wisconsin University and TexasUniversity 计算机专业和化学专业的教授个人网页、学生个人网页和课程网页2) 预处理数据2. 实现朴素贝叶斯算法。3. 实验结果1) 按专业分类的准确性(2 组)2) 打印出每类中概率值最高的20 个词,并分析它们的不同之处3) 修改程序,使得在计算字概率时,可以从词汇表中去掉概率最高的N 个字(从训练集中选)。当N 取30、50、100、300、500、1000 时比较分类器的准确性,画图说明4) 计算字概率时采用如下公式:where, C is a category, EC is the set of all training examples labelled as C, c(w;EC) isthe counts of word w in EC, and s(EC) = ∑ c(wi;EC) is the total counts of all thewords in EC.m取 [10,|V|] 范围的至少5个值,学习分类器,比较分类器的准确性,画图说明。二、实验步骤1. 数据采集本次实验的数据采集由我们两个班共4个组的同学分工完成,本组负责收集Washington University的相关网页。本组用“Offline Explorer Enterprise”这个国外的软件先将Washington University的站内的相关页面下载下来,然后将里面的无关的链接删除,得到与该校有关的页面。由于在下载后,里面有些文件夹内存在一些pdf文件,考虑到无法读取该类文件,所以也将它们删去。最后只剩.html文件。组长将这些资料分发给我们,由我们这些组员整理,再发回给他。预处理数据时先筛选掉无关的网页,然后将有效网页以学校名-专业-课程(教授或学生)-网页分类存放。网页命名基本原则是四个组统一安排的,该原则是按网页的URL命名,考虑到网页已按文件夹分类好,不存在重名的问题,所以一部分网页保留原名(下载名)。本实验的网页文件放在” AI Html Resource”文件夹里,清单如下所示ChemistryComputer ScienceCornell155237Washington179Wisconsin187219用于测试的网页放在” test_for_chem”和” test_for_cs”两个文件夹里,这些文件都是从搜集到的文件里面随机抽取的,清单如下所示:test_for_chemtest_for_cs文件个数86872. 程序代码☆ 平台: Windows XP☆ 开发语言: JAVA☆ 开发工具: JDK +JCreator本实验的代码共包括5个java文件,清单如下所示:功能说明Artificial.java主类,提供输出和对结果进行统计的功能Analyze.java提供分析字符串功能,分割单词并生成单词集HtmlFilter.java过滤网页中的标签,为进行分类做准备keyAndCount.java提供存放单词及其概率的结构keyAndCountobject.java提供存放单词token的结构object主要功能函数说明如下:类Artificial 在此类中,定义了一个静态字符串数组,用于存放停止词public static final String[] ENGLISH_STOP_WORDS = { a,an,and,are, am, as, at, be, but, by, for, i, if, in, into, is, it, do,no, not, of, on, or, s, such,t, that, the, their, then, there, these,they,this,to,was,will,with,nbsp,pm,td,dropitem,dropdown,hover,drophead,td,you,your}; 定义了一个函数,它调用了其他类的函数,同时生成一个哈希表,用于对结果进行统计,此函数首先将文本进行预处理,将当中的有用

文档评论(0)

almm118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档