北邮数据挖掘作业.docVIP

下载本文档

88
0
约2.51千字
约 6页
2016-11-06 发布于重庆
举报
版权申诉

北邮数据挖掘作业.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

北邮数据挖掘作业

北京邮电大学 2015-2016学年第1学期实验报告课程名称：数据仓库与数据挖掘实验名称：文本的分类实验完成人：姓名：学号：日期： 2015 年 12 月实验一：文本的分类实验目的实验LDA主题模型特征提取实现实验环境主要设计思想实验工具介绍所谓网络爬虫，就是一个抓取特定网站网页的HTML数据的程序。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后进入到新页面后再递归的进行上述的操作，其实说来就跟深度遍历或广度遍历一样。 Scrapy是一个基于Twisted，纯Python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用Twisted这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。分类算法的选择实验中分类算法使用的是SVM。SVM是一种监督式学习方法，可以广泛的用于统计分类和回归分析。SVM构造一个超平面，这些平面可能是高纬的，甚至可能是无限维的。在分类任务中，它的原理是，将超平面放置在这样一个位置，使得两类中接近这个位置的距离都最远。我们考虑两类线性可分问题，如果要在两类之间画一条线，那么按照SVM原理，我们会找两类之间最大的空白间隔，然后在空白间隔的中点画一条线，这条线平行于空白间隔。通过核函数，可以使得支持向量机对非线性可分的任务进行分类。性能评估方法实验选择的性能评估方法用到了准确率（precision）和召回率（recall）。具体计算方法如下： precision = a / b×100% recall = a / c×100% 其中 a表示正确预测类别i的数量，b表示预测结果中预测为类别i的数量，c表示实际为类别i的数量。比如“汽车” 类别一共有1000篇文档，也就是c = 1000，最终的预测结果中有1200篇（对所有类别文档进行预测）为“ 汽车”，也就是b=1200，而真正属于“汽车”类的有900篇，也就是a=900。那么“汽车”类的准确率为900/1200×100%=75%，召回率为900/1000×100%=90% 实验过程文本分类语料库的采集选择腾讯新闻作为爬虫的目标网站。选取腾讯新闻下的体育、军事、房产、动漫、教育、文化、游戏、科技共八个分类进行文本爬取，设定目标为每个类2000 篇。数据预处理将每篇文档通过使用中科院提供的ICTCLAS的jni版本软件包将文档进行中文分词和词性标注。通过正则表达式将名词提取出来，并且根据停用词表去停用词。最后写在文件系统中。按照jGibbLDA的输入格式，每篇文档的经过去停用此处理后的名词占一行。如下图所示，每行代表一片文档，最上面的数字代表文档的数量：特征提取和表达实验采用了LDA特征提取。使用了开源包jGibbLDA作为进行特征提取。jGibbLDA对数据输入格式有一定的要求。在数据预处理阶段，我们生成的文档格式就是按照jGibbLDA的输入格式进行生成的。在实验过程中，根据相关资料，分别将主题数设置为50，75, 100,然后进行测试，结果证明当主题数75时候正确率是相对最高的。实验采用的迭代次数为100。训练集部分代码如下：对训练集进行LDA特征提取后，可以得到训练集输出结果，然后根据训练集的输出结果来推测测试集的主题模型。测试集的部分代码如下：训练集和测试集的输出结果如下：为了之后使用libSVM进行分类，分别将训练集和测试集输出结果中的.theta文件转换成libSVM的输入格式。训练过程使用libSVM的checkdata.py工具检查训练集和测试集的输入格式是否正确。如果格式没有错误，则使用svm-scale分别将测试集和训练集归一化到0到1之间。归一化的目的是为了防止某一特征值太大而主导了结果。然后使用libSVM的grid.py对训练集进行调参。最终的到的参数结果为：c=32.0, g=0.0078125, rate=91.79。使用libSVM的svm-train和得到的参数对训练集进行训练，得到最终模型。测试过程使用libSVM的svm-predict对加载训练后的模型，对测试集进行预测。输出的结果只给出了精确率的结