- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北邮数据挖掘作业
北京邮电大学
2015-2016学年第1学期实验报告
课程名称: 数据仓库与数据挖掘
实验名称: 文本的分类
实验完成人:
姓名: 学号:
日 期: 2015 年 12 月
实验一:文本的分类
实验目的
实验LDA主题模型特征提取实现实验环境
主要设计思想
实验工具介绍所谓网络爬虫,就是一个抓取特定网站网页的HTML数据的程序。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。
Scrapy是一个基于Twisted,纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。
分类算法的选择
实验中分类算法使用的是SVM。SVM是一种监督式学习方法,可以广泛的用于统计分类和回归分析。SVM构造一个超平面,这些平面可能是高纬的,甚至可能是无限维的。在分类任务中,它的原理是,将超平面放置在这样一个位置,使得两类中接近这个位置的距离都最远。我们考虑两类线性可分问题,如果要在两类之间画一条线,那么按照SVM原理,我们会找两类之间最大的空白间隔,然后在空白间隔的中点画一条线,这条线平行于空白间隔。通过核函数,可以使得支持向量机对非线性可分的任务进行分类。
性能评估方法
实验选择的性能评估方法用到了准确率(precision)和召回率(recall)。具体计算方法如下:
precision = a / b×100%
recall = a / c×100%
其中 a表示 正确预测类别i的数量,b表示预测结果中预测为类别i的数量,c表示实际为类别i的数量。比如“汽车” 类别一共有1000篇文档,也就是c = 1000,最终的预测结果中有1200篇(对所有类别文档进行预测)为“ 汽车”,也就是b=1200,而真正属于“汽车”类的有900篇,也就是a=900。那么“汽车”类的准确率为900/1200×100%=75%,召回率为900/1000×100%=90%
实验过程
文本分类语料库的采集
选择腾讯新闻作为爬虫的目标网站。
选取腾讯新闻下的体育、军事、房产、动漫、教育、文化、游戏、科技共八个分类进行文本爬取,设定目标为每个类2000 篇。
数据预处理
将每篇文档通过使用中科院提供的ICTCLAS的jni版本软件包将文档进行中文分词和词性标注。通过正则表达式将名词提取出来,并且根据停用词表去停用词。最后写在文件系统中。按照jGibbLDA的输入格式,每篇文档的经过去停用此处理后的名词占一行。如下图所示,每行代表一片文档,最上面的数字代表文档的数量:
特征提取和表达
实验采用了LDA特征提取。使用了开源包jGibbLDA作为进行特征提取。jGibbLDA对数据输入格式有一定的要求。在数据预处理阶段,我们生成的文档格式就是按照jGibbLDA的输入格式进行生成的。
在实验过程中,根据相关资料,分别将主题数设置为50,75, 100,然后进行测试,结果证明当主题数75时候正确率是相对最高的。
实验采用的迭代次数为100。训练集部分代码如下:
对训练集进行LDA特征提取后,可以得到训练集输出结果,然后根据训练集的输出结果来推测测试集的主题模型。测试集的部分代码如下:
训练集和测试集的输出结果如下:
为了之后使用libSVM进行分类,分别将训练集和测试集输出结果中的.theta文件转换成libSVM的输入格式。
训练过程
使用libSVM的checkdata.py工具检查训练集和测试集的输入格式是否正确。
如果格式没有错误,则使用svm-scale分别将测试集和训练集归一化到0到1之间。归一化的目的是为了防止某一特征值太大而主导了结果。
然后使用libSVM的grid.py对训练集进行调参。最终的到的参数结果为 :c=32.0, g=0.0078125, rate=91.79。
使用libSVM的svm-train和得到的参数对训练集进行训练,得到最终模型。
测试过程
使用libSVM的svm-predict对加载训练后的模型,对测试集进行预测。输出的结果只给出了精确率的结
您可能关注的文档
最近下载
- 英语语法大全-英语语法大全.pdf VIP
- 合信MagicWorks HMI用户手册V3.00.pdf
- 《股骨远端骨折教学》.ppt VIP
- 天然气制氢简介演示.ppt VIP
- 学堂在线 日语与日本文化 期末考试答案.docx VIP
- 北师大版八年级数学下册专题10分式方程应用的三种考法全攻略(原卷版+解析).docx VIP
- ppt素材大全.ppt VIP
- 人教版八年级数学上册专题10分式方程实际应用压轴题的四种考法全攻略(原卷版+解析).docx VIP
- 2025年铁路轨道参数动态检测装置项目市场调查研究报告.docx
- 人教版八年级数学上册专题08因式分解压轴题的四种考法(原卷版+解析).docx VIP
文档评论(0)