第四节文本挖掘概述.pptVIP

下载本文档

59
0
约3.68千字
约 27页
2017-05-15 发布于天津
举报

第四节文本挖掘概述.ppt

第四节文本挖掘概述一、文本挖掘的定义文本挖掘是数据挖掘的一个分支。将文本型信息源作为分析对象，利用智能算法，如神经网络、基于案例的推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、网页、企业管理日志等），从中寻找信息的结构、模型、模式等各种隐含的知识。文本挖掘就是利用计算机的高速度和海量处理能力，来帮助人们处理文本信息。一、文本挖掘的定义文本挖掘（text mining）：是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。 Text data mining 、knowledge discovery from textual databases 二、文本挖掘的作用提高了海量非结构化信息源的利用价值；使得人们能够更加方便地从海量文本中发现隐含的知识；为企业的战略决策提供竞争情报的支持文本挖掘的过程相对于数据挖掘而言，文本挖掘技术还不成熟。文本数量巨大，结构不统一，处于动态变化中；自然语言理解理论在语言的深层理解方面没有根本性的突破，致使文本处理的准确度不高，文本挖掘的效果不够理想。计算机理解语言的能力非常有限！三、文本挖掘的关键技术为什么要进行文本分析？文本是以文字串形式表示的数据文件。文本分析过程即通过文本分析，从中找出一些特征以便将来使用。文本分析包括语种识别、特征提取、文本聚

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第四节文本挖掘概述.pptVIP