- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
试验报告
试验报告
实验名称:采用TFIDF自动对文本进行形式化
试验目的
1.加深对文本形式化的理解,掌握文本形式化的方法。
2.熟练掌握TFIDF算法,掌握如何计算权值(wij)。
3.在理解TFIDF算法基础下,编写程序实现该算法。
4.对某方面的文本运用该算法计算,并分析结果。
第2章 试验的软硬件平台
indows 2000 sp4
工具软件:Microsoft Visual Studio 6.0
第3章 试验数据说明Principles of Data Mining.pdf的第5页至第24页,共计20页内容。每页内容作为一个文本,这样文本集中的文本数量为20。这20个文档存储在text目录下。文本命名:
p00.txt,
p01.txt,
……,
p19.txt。
输入数据之二:文本形式的术语集。该术语集存储在text目录下vo.txt中,每行一个术语(词汇)。可自行编辑。
输出数据:文本集的矩阵表示。程序运行当前目录下输出文本mm.txt。
矩阵格式说明:
文档编号 总词数 词汇 权值 词出现次数 文档频率 文档编号0 661 词汇A 0.016018 4 2 词汇B 0.004214 23 18 …… …… …… …… 文档编号1 713 词汇A …… …… …… 词汇B …… …… …… …… …… …… …… …… …… …… …… …… 文档编号n 599 词汇A …… …… …… 词汇B …… …… …… …… …… …… …… (注:词出现次数——词在该文档中出现次数,文档频率——词在几篇文档中出现, 权值精确到小数点后六位。)
第4章 试验内容))tfij):文档i中词汇j出现的频率。本试验中,某个文档中某词频的计算采用如下公式:tfij =词汇j在文档i中出现的次数/文档的总词数。需要说明的是,文档的总词数统计含重复出现的词汇,例如,本试验中“in Schools in America”总词数计为4。
文档频率Document Frequency(dfj):多少个文档包含词汇j。
tfidf权值(wij):wij = tfij * log(d/dfj)
其中d是文档的数目。本试验中文档数目为20,即d=20。本试验的算法实现并没有考虑词频的归一化处理。
2、程序流程设计:
二 、详细试验过程
1、程序设计实现
学习tfidf的相关知识,在此基础上理解公式,编写算法实现程序。程序计算文本集中所有出现的单词的tfidf权值Wij。在不输入术语集的情况下,输出所有单词的权值。在输入术语集的情况下,仅输出给定术语的权值。
数据结构:试验程序设计采用二叉树的链式存储作为文本集存储的数据结构。
权值排序示例画树形图 权值从大到小依次为:左儿子节点——节点——右儿子节点
主要函数:
Ttree *createTtree(Ttree *root,FILE *fp)
创建二叉树用来存放单词,以及该词在文档中出现的次数/计算词频
Ttree *SearchBinTtree(Ttree *rootx,Ttree *rooty)
void InMidThread(Ttree *rooty,Ttree *rootx)
计算文档频率——词在几篇文档中出现
void InThread(Ttree *root,Ttree *Mroot) 计算权值
void weight(Ttree *root) 对权值进行排序,二叉树节点插入过程
bool in(char data[20]) 判断某词是否在词汇集中
void ThreadWeight(Ttree *root) 权值输出,从大到小顺序
2、输入术语集的选取
针对本试验的输入数据,20个文本均来自于MIT-Principles of Data Mining.pdf,我们可以知道这20个文本应该属于数据挖掘类,可初步判断文档必然具有一定的相似性,即都与数据挖掘有关。因此,我们对术语集的选取也从能否表现文档的类特征角度出发。
第一步,我们不设定术语集(删除text\vo.txt),即按照程序设计想法对每个文本的所有词汇依次输出权值。观察并记录试验输出结果。
第二步,我们选取WEIGHT、 degree和behavior这三个术语作为术语集,这三个术语在20个文本中的出现频度并没有普遍规律。如,weight这个词只出现在文本16和文本17中,它的在数据挖掘类的某些文本内容中出现较为频繁,但并不是在所有文本中普遍出现。除weight外,其它两个术语与
您可能关注的文档
- 莆田市2016年度秋季事业单位公开考试.doc
- 莆田市水利工程施工.doc
- 蚌埠医学院2017年博士招聘计划.doc
- 行政事业单位资产管理信息系统.doc
- 衢州学院.doc
- 西南大学教案.doc
- 西城卫生.doc
- 西安交通大学.doc
- 西安交通大学教学进度计划.doc
- 西式快餐调查报告.doc
- 2024-2025学年小学劳动五年级下册浙教版《劳动》教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)四年级下册(2020)闽教版(2020)教学设计合集.docx
- 2024-2025学年小学心理健康五年级下册北师大版(2021)教学设计合集.docx
- 2024-2025学年小学科学六年级上册粤教粤科版(2017秋)教学设计合集.docx
- 2024-2025学年初中地理七年级上册沪教版教学设计合集.docx
- 2024-2025学年初中地理七年级上册湘教版(2024)教学设计合集.docx
- 2024-2025学年小学英语三年级下册牛津上海版(试用本)教学设计合集.docx
- 2024-2025学年高中英语高二上册牛津上海版(试用本)教学设计合集.docx
- 2024-2025学年高中数学高三 第一学期沪教版教学设计合集.docx
- 2024-2025学年初中音乐八年级上册人教版(2024)教学设计合集.docx
最近下载
- 2024霸王茶姬- 以东方茶会世界友品牌简介手册-65P.pptx VIP
- 焊点标准(DIP部分).pdf
- 大职赛生涯闯关参考答案.docx VIP
- 宁夏水务投资集团有限公司招聘笔试题库2023.pdf
- eo体系内审检查表.doc
- 桉木P-RC+APMP化机浆废水的污染特征与生物处理的研究.pdf VIP
- 《基于项目式学习在初中物理教学中培养学生问题解决能力的实践研究》课题研究方案.doc
- Unit4Funwithnumbers.(课件)-外研版(三起)(2024)英语三年级上册.pptx VIP
- 城市轨道交通全自动运行系统场景技术规范.pdf VIP
- 大学本科优质生源基地建设管理办法.docx
文档评论(0)