第四节 文本挖掘概述.pptVIP

  • 59
  • 0
  • 约3.68千字
  • 约 27页
  • 2017-05-15 发布于天津
  • 举报
第四节 文本挖掘概述.ppt

第四节 文本挖掘概述 一、文本挖掘的定义 文本挖掘是数据挖掘的一个分支。 将文本型信息源作为分析对象,利用智能算法,如神经网络、基于案例的推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、网页、企业管理日志等),从中寻找信息的结构、模型、模式等各种隐含的知识。 文本挖掘就是利用计算机的高速度和海量处理能力,来帮助人们处理文本信息。 一、文本挖掘的定义 文本挖掘(text mining):是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。 Text data mining 、knowledge discovery from textual databases 二、文本挖掘的作用 提高了海量非结构化信息源的利用价值; 使得人们能够更加方便地从海量文本中发现隐含的知识; 为企业的战略决策提供竞争情报的支持 文本挖掘的过程 相对于数据挖掘而言,文本挖掘技术还不成熟。 文本数量巨大,结构不统一,处于动态变化中; 自然语言理解理论在语言的深层理解方面没有根本性的突破,致使文本处理的准确度不高,文本挖掘的效果不够理想。 计算机理解语言的能力非常有限! 三、文本挖掘的关键技术 为什么要进行文本分析? 文本是以文字串形式表示的数据文件。 文本分析过程即通过文本分析,从中找出一些特征以便将来使用。 文本分析包括语种识别、特征提取、文本聚

文档评论(0)

1亿VIP精品文档

相关文档