- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于句法规则文本挖掘技术设计
一种基于句法规则的文本挖掘技术的设计
〔摘 要〕文本挖掘是数据挖掘技术的一个重要方面,本文根据句法规则的特征,利用文本挖掘技术,提出基于句法规则的文本知识挖掘设计模型,从数据准备、句法规则构造、文本预处理、文本知识挖掘、挖掘结果评价等方面对工作原理进行了分析,重点阐述了句法规则的构造过程,最后通过实验验证了该模型,该设计对实现文本知识的智能化挖掘具有一定的研究意义和应用价值。
〔关键词〕文本挖掘;句法规则;模式匹配;文本预处理
DOI:10.3969/j.issn.1008-0821.2016.02.027
〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821(2016)02-0140-05
〔Abstract〕Text mining is an important aspect of data mining technology.According to the features of syntactic rules,the paper uses the text mining technology,and puts forward the design model based on the syntactic rules text knowledge mining.It analyzes the working principles of the data preparation,the syntactic rules knowledge structure,the text preprocessing,the text mining and the evaluation of mining results.Meanwhile it expounds the process of the construction of the syntax rules.At last,the paper identifies the model after some physical experiments.All in all,the design has certain research significance and application value to implement the intelligent of the text knowledge mining.
〔Key words〕text mining;syntactic rules;pattern matching;text pretreatment
随着信息技术、网络技术和各种数字化资源的建设,人们正面临着海量、快速增长的文本数据资源,传统的搜索引擎和查找技术已远远不能满足人们的需求。如何从大量原始的、未经处理的文本数据集合中挖掘出潜在未知的知识,满足人们获取各种信息和知识的需要,已成为一个重要的研究课题。
1 文本挖掘及句法规则概述
文本挖掘(Text Mining,TM)是在数据挖掘的基础上发展起来的一个分支,它以文本数据作为挖掘对象,主要任务是对隐藏于海量文本中没有检测到的非结构化知识进行提取的过程[1]。文本挖掘处理的对象是由多数据源组成的大量文本文档,包括新闻文章、研究论文、书籍期刊、报告会议、档案文献、Internet网络信息等半结构化或者高度非结构化的数据[2]。
汉语句子的结构非常自由,但其蕴含的基本规则相对稳定,句法规则是从汉语本身的属性特点出发,将构成句子的词或词组按一定的语法关系和句子结构,组合成能够表达完整意思的规则[3],如词语的分类、句式结构的确定、句法描述体系和句法构成元素的建立等,它是对句子结构的抽象概括,通过组合和聚合关系造出无数合格的句子,是对句子分析的一种总结结果。
2 基于句法规则的文本知识挖掘技术的分析与设计
本文采用句法规则构造实现文本知识挖掘,主要设计如下:首先,根据知识的表示和用户的不同需求,构造出能全面准确表达文本内容的句法规则;其次,针对多源文本数据的特点和存在的问题进行预处理操作,为核心挖掘提供干净、准确、简洁的目标数据;再次,基于模式匹配算法,执行句法规则与目标文本数据的匹配,得出满足句法规则条件的挖掘结果;最后,通过一定的指标对挖掘结果进行评价,将满足用户需求的知识可视化表达到用户界面,供其选择和使用,具体过程如图1所示:
2.1 数据准备
数据准备主要是多源文本数据的获取,它通过多种数据源获取用于文本知识挖掘的数据,并存储在本地硬盘中[4]。文本数据的获取有多种途径,主要来源是Internet网络信息、研究成果、各种专题数据,以及其他文献资料。选择文本数据的数据源需要遵循以下原则:一是能为对象提供详细
文档评论(0)