- 3
- 0
- 约5.9千字
- 约 10页
- 2017-03-09 发布于北京
- 举报
一种基于句法规则的文本挖掘技术的设计.doc
一种基于句法规则的文本挖掘技术的设计 〔摘 要〕文本挖掘是数据挖掘技术的一个重要方面,本文根据句法规则的特征,利用文本挖掘技术,提出基于句法规则的文本知识挖掘设计模型,从数据准备、句法规则构造、文本预处理、文本知识挖掘、挖掘结果评价等方面对工作原理进行了分析,重点阐述了句法规则的构造过程,最后通过实验验证了该模型,该设计对实现文本知识的智能化挖掘具有一定的研究意义和应用价值。 〔关键词〕文本挖掘;句法规则;模式匹配;文本预处理 DOI:10.3969/j.issn.1008-0821.2016.02.027 〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821(2016)02-0140-05 〔Abstract〕Text mining is an important aspect of data mining technology.According to the features of syntactic rules,the paper uses the text mining technology,and puts forward the design model based on the syntactic rules text knowledge mining.It analyzes the working principles of the data preparation,the syntactic rules knowledge structure,the text preprocessing,the text mining and the evaluation of mining results.Meanwhile it expounds the process of the construction of the syntax rules.At last,the paper identifies the model after some physical experiments.All in all,the design has certain research significance and application value to implement the intelligent of the text knowledge mining. 〔Key words〕text mining;syntactic rules;pattern matching;text pretreatment 随着信息技术、网络技术和各种数字化资源的建设,人们正面临着海量、快速增长的文本数据资源,传统的搜索引擎和查找技术已远远不能满足人们的需求。如何从大量原始的、未经处理的文本数据集合中挖掘出潜在未知的知识,满足人们获取各种信息和知识的需要,已成为一个重要的研究课题。 1 文本挖掘及句法规则概述 文本挖掘(Text Mining,TM)是在数据挖掘的基础上发展起来的一个分支,它以文本数据作为挖掘对象,主要任务是对隐藏于海量文本中没有检测到的非结构化知识进行提取的过程[1]。文本挖掘处理的对象是由多数据源组成的大量文本文档,包括新闻文章、研究论文、书籍期刊、报告会议、档案文献、Internet网络信息等半结构化或者高度非结构化的数据[2]。 汉语句子的结构非常自由,但其蕴含的基本规则相对稳定,句法规则是从汉语本身的属性特点出发,将构成句子的词或词组按一定的语法关系和句子结构,组合成能够表达完整意思的规则[3],如词语的分类、句式结构的确定、句法描述体系和句法构成元素的建立等,它是对句子结构的抽象概括,通过组合和聚合关系造出无数合格的句子,是对句子分析的一种总结结果。 2 基于句法规则的文本知识挖掘技术的分析与设计 本文采用句法规则构造实现文本知识挖掘,主要设计如下:首先,根据知识的表示和用户的不同需求,构造出能全面准确表达文本内容的句法规则;其次,针对多源文本数据的特点和存在的问题进行预处理操作,为核心挖掘提供干净、准确、简洁的目标数据;再次,基于模式匹配算法,执行句法规则与目标文本数据的匹配,得出满足句法规则条件的挖掘结果;最后,通过一定的指标对挖掘结果进行评价,将满足用户需求的知识可视化表达到用户界面,供其选择和使用,具体过程如图1所示: 2.1 数据准备 数据准备主要是多源文本数据的获取,它通过多种数据源获取用于文本知识挖掘的数据,并存储在本地硬盘中[4]。文本数据的获取有多种途径,主要来源是Internet网络信息、研究成果、各种专题数据,以及其他文献资料。选择文本数据的数据源需要遵循以下原则:一是能为对象提供详细、准确数据;二是要考虑数据的可整合性、可挖掘性和现势性。文本知识的挖掘是一种基于句法规
您可能关注的文档
最近下载
- LaserjetCP1025系列打印机打印质量故障排除手册.pdf VIP
- 年会小品剧本小品剧本:搞笑小品剧本《都是喝酒惹事》台词大全.docx VIP
- 2026年高考全国II卷文科综合真题试卷(新课标卷)(+答案).docx VIP
- 安路科技(688107)补国产短板,突高端应用,拓新应用与技术大市场-240717-东北证券-38页.pdf VIP
- [搞笑小品剧本]上当了小品剧本.docx VIP
- 数据中心800V直流供电技术白皮书2.0.pdf
- 上海大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 上海大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 中国教育行业人才流动与薪酬水平_2025年12月.docx
- 2024全国初中数学联赛初二卷 .pdf VIP
原创力文档

文档评论(0)