文本数据挖掘系统原型方案研究.docVIP

下载本文档

8
0
约4.68千字
约 8页
2018-04-06 发布于北京
举报
版权申诉

文本数据挖掘系统原型方案研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本数据挖掘系统原型方案研究　　摘要：本文在研究文本数据挖掘技术发展基础上，对文本数据挖掘系统设计进行深入分析，在此基础上，论文设计实现文本数据挖掘系统原型方案，该方案将文本分析、数据库和文本数据挖掘技术有机地结合起来，实现了文本特征值提取、特征值清理入库和关联规则挖掘等功能。　　关键词：文本数据挖掘；系统；原型方案　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)18-20ppp-0c 　　　　The Study on Text Data Mining Antetype Solution 　　DIAN Shi-mei 　　(Yunnan Medical College, Yunnan 650031, China) 　　Abstract: Based on the analysis of text data mining technology, the paper makes deep study about text data mining system design. Then the paper puts forward and designs a text miner antetype solution , which combines text analysis, data base and text data mining technology and realizes such functions as text eigenvalue extraction ,association rule mining and so on. 　　Key words: text data mining; system; antetype solution 　　　　1 引言　　　　文本数据挖掘是近几年才引起大家的关注并发展起来的一个数据挖掘领域的新兴分支，与机器学习、统计、模式识别等前缘理论方法密切相关。面对这样的挑战，数据挖掘和知识发现技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力，成为数据库研究的一个新领域。文本数据挖掘是通过自动提取文本信息在大量文本数据中发现未知的知识的过程，与自然语言密切相关，其关键是把提取的信息组合起来发现未知知识。文本数据挖掘不同于Web搜索，Web搜索是人们事先己知要查找什么，而文本数据挖掘是发现未知知识，事先可能并不存在。文本数据挖掘也不同于常规意义上的数据挖掘，常规数据挖掘是在数据库中发现感兴趣的模式，而文本数据挖掘是从自然语言文本中发现模式。　　　　2 文本数据挖掘技术发展研究　　　　文本数据挖掘可分为基于单文档的数据挖掘和基于文档集的数据挖掘阁。单文档数据挖掘对文档的分析不涉及其它文档，主要挖掘方向有文本自动摘要、文档知识总结发现、信息提取。信息提取又包括名字提取、短语提取和关系提取等，涉及到较深的语言学的知识。文档集数据挖掘对大规模的文档数据进行模式抽取，既可以文本自动摘要、文档总结，又可以进行文本分类、文本聚类、相似性分析、个性化文本过滤和信息检索。文本数据挖掘目前主要运用特征信息提取、聚类分析方法对文本进行分类，主要应用在信息学和图书信息检索方面提高信息检索效率，有少部分运用语言学的语法结构知识来分析文本内容，但进展缓慢不大。　　传统数据挖掘所处理的数据是结构化的，如关系的、事务的数据库和数据仓库的数据，其特征项数目相对较少且结构单一；而文本数据没有结构，转换为特征矢量后特征项数目达到几万甚至十几万个。随着信息技术的发展，需要处理的文本信息也日益增加，传统的信息检索和处理技术已经不能满足大数据量文本处理的需要。文本数据挖掘既融合了很多传统数据挖掘的技术，如挖掘算法思想、挖掘流程构架等，又有自己独特的处理方法，表现在数据抽取、清洗及巨量数据挖掘算法的改进等方面。　　文本可分为纯文本和超文本，超文本不仅有纯文本的性质，还含有各种标记和链接引入的结构对象(如声音、图片甚至应用程序等)。对纯文本和超文本中纯文本部分都可以进行内容挖掘。文本内容挖掘又可分为有背景知识挖掘和无背景知识挖掘。有背景知识挖掘是通过分析文本的语法特征和少量语义特征来进行挖掘，使用的背景知识主要是自然语言知识，如主谓宾及修饰性词句语法分析、通过辅助词进行语义分析等，主要挖掘结果是文本的语法结构性和语义性特征。无背景知识挖掘则主要是通过统计方法提取文本特征数据，再对这些提取出的数据进行挖掘，挖掘的数据主要是文本的描述性特征，挖掘的结果根据业务需求千差万别，如可以通过比较提取出的特征数据的相似程度对文本进行分类，可以在文件检索中提供给检索者相关特征词的文件，还可以对文本进行自动文档摘要处理等。　　文本数据挖掘与目前数据挖