分享-文本分类实验报告.docxVIP

下载本文档

24
0
约8.56千字
约 31页
2016-12-31 发布于未知
举报
版权申诉

分享-文本分类实验报告.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

北京邮电大学2013-2014学年第1学期实验报告（代码就不分享了，都是文本格式处理的代码.欢迎大家批评指正！）课程名称：数据仓库与数据挖掘实验名称：SVM文本分类实验完成人：姓名：学号：姓名：学号：姓名：学号：日期： 2013 年11 月实验一：SVM文本分类实验目的熟悉爬虫的使用，可以利用网络爬虫抓取所需的网络语料熟悉中文分词软件，可以熟练使用接口完成分词任务熟悉文本分类必要的预处理步骤，并运用到实验实践中熟悉特征提取方法，包括CHI-square 和 LDA特征提取了解SVM机器学习方法，可以运用开源工具完成文本分类过程实验分工XXX：运用爬虫对语料库新闻的收集对数据的预处理工作后期的不同对比试验的测试XXX:特征的提取训练集和测试集的生成后期的不同对比试验的测试实验环境中文分词与LDA特征提取运行环境: Java version 1.7开发环境:eclipsePython代码运行环境：(1)python 3.2主要设计思想实验工具介绍Web Crawler:由实验室集体开发的网络爬虫，不对外公开。可以方便的通过正则表达式的配置，轻松的完成对网络数据的提取，并且可以根据需求完成过滤老新闻、不合适的网址格式等功能。最终的爬取结果文件已经经过程序处理，可以直接得到最需要得到的内容。例如：在此实验中，最终的爬取结果即为已经从网站中提取出的新闻标题和正文。ICTCLAS：全称为汉语词法分析系统。具有简易的图形演示界面，和不同语言的API接口，开发者可以根据自己的需求选择不同的接口。主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典；在今年的12月中下旬会发布ICTCLAS2014版本。Lib svm: 是由台湾大学林智仁副教授等开发的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包。除了主体训练，测试的程序，还提供了一些使用的工具，例如子集的选择，参数的选择与归一化的操作等实用的方法。JGibbLDA: 使用JAVA实现了Latent Dirichlet Allocation(LDA)，使用了Gibbs采样来进行参数估计。特征提取与表达方法的设计在此次实验中，我们采用了两种特征提取的方法。针对不同的方法提取的特征分别作了文本分类实验。所有的特征提取与特征表达的详细步骤会在5.3种进行描述。CHI特征提取：根据上面的公式，最终建立成了数据字典。经过CHI特征提取建立成数据字典，数据字典如图所示（已经经过了按照字母排序处理）：在每个词的前面是数据字典中，每个词对应的id。最终的特征向量表达方法为：Class_id word_id:tf-idf …… 第一列class_id为此文本所属的新闻类别，word_id为数据字典中每个词对应的word_id，tf-idf为每篇文档中，对应的tf-idf值。LDA特征提取：LDA是主题模型的一种。假设一篇文章可以由不同的主题组成，把每篇文章中的主题分布概率来当作这篇文章的特征，从而形成了特征向量。主题的数量可以由人工根据情况指定或者通过其他方法科学的得到合理也就是概率最大的主题数量，再对其进行人工指定。经过LDA主题模型分析之后，在通过简单的处理，变换成SVM可以接受的输入格式，会得到如下的特征向量：图中的第一列为文本的所属类别。后面的为topic_id:probability。Topic_id为相应的主题id，probability为这篇文档此主题的分布情况。两种特征提取的方法，都将会在5.3中进行详细描述。分类算法的选择我们使用的SVM（Support Vector Machine）分类算法，是最大margin分类算法中的一种。SVM是一种可训练的机器学习方法，在小样本中可以得到优秀的训练模型。图1如图中所示，SVM分类算法可以根据最边界的样本点，也就是支持向量，达到二分类的目的。当数据的样本线性不可分时，会通过核函数的映射，把样本转换到线性可分的向量空间。所以核函数的选择也会影响最终的效果。如果遇到了多分类的问题，如下图所示，可以通过多个SVM训练模型完成多分类的任务。现在的SVM工具包都提供了自动的多分类接口。图2此外，SVM与logistic regression非常相似。Logistic regression虽然其名字当中是regression也就是回归，但是实际上此算法是一个分类算法。为了达到性能和效率兼备，对不同情况运用不同算法的场景进行了描述：n为特征的数量，m为训练样本的数量如果n相对m大很多，可以使用logistic regression 或者使用SVM ，核函数选择线性核函数如果n很小，m的大小适中，使用SVM，核函数选择Gaussian函数如果n很小，m很大,需要添加更多的特征，然