[生物学]ch8文本挖掘.ppt

[生物学]ch8文本挖掘

11111111111111111111111111111 文本挖掘概念 关于文本挖掘名字 Text Mining Text Data Mining Knowledge Discovery in Text Knowledge Discovery in Textual Data Text Mining is mainly about somehow extracting the information and knowledge from text 对KDD定义进行扩展,文本挖掘是从大量文本数据中抽取隐含的、未知的、可能有用的信息。 文本挖掘概念 文本挖掘 文本挖掘是数据挖掘的一个分支,它是把文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息的结构、模型、模式等各种隐含的知识.这种知识对用户而言是新颖的,具有潜在价值。因此,文本挖掘技术的出现为文本信息的整理、分析、挖掘提供了有效手段。 文本挖掘的研究意义 电子化的文本数量不断增长 Web中99%的可分析信息是以文本形式存在的 Web网页总量超过100亿 每天新增网页数千万 机构内90%信息以文本形式存在 数字化图书馆、数字化档案馆 数字化办公 传统的检索技术 基于关键词的简单检索 主要应用 新一代搜索引擎 互联网内容安全 互联网非法内容分不 企业知识管理 企业内知识共享、企业相关外部信

文档评论(0)

1亿VIP精品文档

相关文档