- 8
- 0
- 约8.8千字
- 约 7页
- 2017-08-20 发布于北京
- 举报
文本数据挖掘及其应用
摘要:随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、相关技术以及热点难点进行了探讨,然后通过两个例子简单地说明了文本挖掘的应用问题。
关键词:文本挖掘 研究现状 相关技术 应用
1 引言
随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程n1的文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。
2 文本挖掘概述
2.1文本挖掘介绍
数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。
1)文本挖掘的定义
文本挖掘作为数据挖掘的一个新主题 引起了人们的极大兴趣,同时它也是一个富于争议的研究方向目前其定义尚无统一的结论需要国内外学者开展更多的研究以进行精确的定义类似于我们熟知的数据挖掘定义我们对文本挖掘作如下定义。
定义 2.1.1 文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息或知识的过程。直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。
2 )文本挖掘的研究现状
国外对于文本挖掘的研究开展较早,50年代末,H.P.Luhn在这一领域进行了开创性的研究,提出了词频统计思想于自动分类。1960年,Maron发表了关于自动分类的第一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型、文本特征抽取与文本中间表示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析)、文本挖掘工具等,其中首次将KDD中的只是发现模型运用于KDT。
我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处于消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:
(1) 没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。
(2) 中文文本的特征提取与表示大多数采用“词袋”法,“词袋”法即提取文本高词频构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用“词袋”法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。
(3) 知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。
2.2 文本挖掘主要内容
存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘,事实上,最近研究表明公司信息有80%包含在文本文档中。
1)文本分类
文本分类指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更容易、快捷。目前,用于英文文本分类的分类方法较多,用于中文文本分类的方法较少,主要有朴素贝叶斯分类(Na?ve Bayes),向量空间模型(Vector Space Model)以及线性最小二乘LLSF(Linear Least Square Fit)。
2)文本聚类
聚类与分类的不同之处在于,聚类没有预先定义好的主体类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。
3)文本结构分析
其目的是为了更好地理解文本的主题思想,了解文本表达的内容以及采用的方式,最终结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依次为层次和段落。
4)Web文本数据挖掘在Web迅猛发展的同时,不能忽视“信息爆炸”的问题,即信息极大丰富而知识相对匮乏。据估计,Web已经发展成为拥有3亿个页面的分布式信息空间,而且这个数字仍以每4-6个月翻1倍的
您可能关注的文档
- 护师(儿科护理)第五讲.doc
- 披头士beatles.doc
- 拓展训练市场营销策划书1.doc
- 招商大厅土方开挖及基础施工方案.doc
- 招投标企业评级项目建议书2012.doc
- 招标代理公司备案申请表.doc
- 招标管理办法(5稿).doc
- 拼音音调输入技巧.doc
- 指导教师评分表.doc
- 按年龄段管教孩子的最好方法(1-10岁全).doc
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- GB45673-2025《危险化学品企业安全生产标准化通用规范》解读.pptx
- SH15-M-40010非晶合金变压器设计.docx VIP
- 青岛市2025-2026学年(上期)高三期末考试政治试卷(含答案).docx
- 2025届高考物理二轮复习热点题型归类-专题06 牛顿运动定律的综合应用(教师版).docx VIP
- ASTME8/E8M2021金属拉伸实验最新美标中文版.pdf VIP
- 中国美术水墨画课件.pptx VIP
- Why Nations Fail书.pdf VIP
- 【高考真题】全国2024年统一高考物理真题试卷(新课标)附解析.docx VIP
- 2025届高考物理热点题型归类专题11功和功率及动能定理的理解与应用讲义+变式演练.pdf
- 幼儿园小班手指游戏集(13个) 幼儿园小班游戏教案.doc VIP
原创力文档

文档评论(0)