- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于matlab文本处理系统设计与实现
基于matlab文本处理系统设计与实现
摘要:为了进行关键词的文本查重和文本检索,设计出基于matlab的文本处理系统。首先,研究文本处理系统的相关原理及技术;其次,设计系统的总体框架,细化功能;最后,采用matlab语言来设计系统,利用多个TXT文本构建语料数据库,设计出基于matlab的文本处理系统应用程序。测试表明:该系统能有效地实现文本查重和文本检索。
关键词:MATLAB;文本处理;文本查重;文本检索;TF-IDF
中图分类号:TP319 文献标识码:A DOI:10.3969/j.issn.1003-6970.2017.08.044
本文著录格式:费扬,杜庆治?基于madab的文本处理系统的设计与实现[几?件,2017,38(8):226-229
引言
随着计算机及网络技术的不断发展,信息技术进入了高速发展时期,信息以电子文档形式呈现在大众面前越来越普遍,而电子文档中文本文档占据重要位置。要想实现在海量的文档中如何快速有效地进行文本信息的查重与检索,需设计出一个针对TXT文档格式的多文档的文本处理系统。信息检索的核心技术是全文检索技术,全文检索是以各种计算机数据诸如文字、声音、图像等为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索手段。文本处理系统里的全文检索是现代信息检索技术的一个重要的分支,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。文本处理系统能实现对指定目录下的目录或文件的遍历
和检索。完成多文档文本处理系统的设计与开发,为用户提供一个快捷、安全的信息检索渠道。利用matlab设计系统操作简单实用,比其他编程语言更加容易实现数据分析。
1 文本处理原理及相关技术
1.1 文本处理
文本处理系统主要包含文本查重和文本处理两个部分。文本查重顾名思义就是查找关键词在文本中的重复率。文本检索(Text Retrieval)是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。当知道某个关键词在文本中重复率较高时,可以从关键词可以粗略的判断出该文章的类型,对某关键词进行文本检索就可以知道关键词在语料库中所占权重,将包含关键字的文档挑出来作为检索结果呈现给用户[34]。
1.2 TF-IDF
TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF(Term Frequency,词频)是指某个关键词在特定文件中出现的频率。一般情况下,同一个关键词在长文件里会比短文件的词数要高,关键词却与文件大小无关,为了防止偏向长文件情况,需要对词数进行处理,词频就是对词数的归一化,[6_7]计算公式如式(1)所示。
关键词a在某特定文件中出现的次数 (n某特定文件里所有字词的数目IDF(Inverse Document Frequency,逆向文件频率)是一个词语普遍重要性的度量,打个比方说,如果包含某关键词的文档很少,IDF很大,则说明该关键词能很好地将该类文档区分开来,具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。计算公式如式(2)所示。
包含关键词a的文档数
2 系统的设计和实现
2.1 系统总体功能设计
本系统主要是利用matlab语言来编程实现,最后生成EXE(executable program,EXEFile)可执行程序更加方便使用。开发系统时充分考虑到系统的开发背景和系统目标等信息,使系统设计的更加合理。本系统为了更好地对文本文档进行关键词的查重和权重检索,将系统分为两个部分:一个是文本查重,一个是文本检索。系统的总体设计框图如图1所示。通过该应用程序能很好地实现信息检索,操作简单实用,而且可以在任意电脑运行。
2.2 系统详细设计和实现
2.2.1 系统的主要功能
本系统主要包括两个部分:一个是文本查重,一个是文本检索。文本查重主要是用来统计关键词在文章中出现的重复率,文本检索主要是用来统计关键词在语料库中出现的情况及TF-IDF检索情况。
2.2.2 系统模块的设计
为了直观的看到文本查重和文本检索信息,将两个模块放在同一界面来进行设计,文本处理界面如图2所示。在设计系统时,除了要完全实现该系统的功肯巨外,要考虑到用户使用的便利性,将MATLAB程序输出成EXE应用程序,同时将运行环
您可能关注的文档
- 基于Logistic混沌加密NSCTDWTSVD彩色水印算法.doc
- 基于Logistic混沌图像隐藏方案.doc
- 基于Logistic混沌模型硬件加密芯片算法分析及FPGA实现.doc
- 基于Logistic神经网络模型大体积混凝土温升数值模拟.doc
- 基于Logit对数线性模型大类招生高校学生成绩统计分析.doc
- 基于logit模型上市公司财务困境预测实证分析.doc
- 基于Logit模型公用商贸上市公司财务预警实证研究.doc
- 基于Logit模型商业银行个人贷款业务风险成因实证研究.doc
- 基于Logit模型战略性新兴产业企业财务风险影响因素研究.doc
- 基于Logit模型航道货运量分配预测研究.doc
原创力文档


文档评论(0)