- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实用标准文档
PAGE
文案大全
第12章 文本数据挖掘与Web挖掘技术
第1节 文本挖掘概述
1.1 文本挖掘的出现
在现实世界中,我们面对的数据大都是文本数据,这些数据是由各种数据源(如新闻文章、研究论文、书籍、数字图书馆、电子邮件和Web页面等)的大量文档组成。所以,随着文档信息量的飞速增长,文本数据的数据量也急剧地增长。
文本数据是所谓的半结构化数据(Semi-Structure Data),它既不是完全无结构的也不是完全结构化的。如,文档可能包含结构字段,比如:标题、作者、出版日期、长度、分类等,也可能包含大量的非结构化的文本,如摘要和内容。
文本挖掘(Text Mining),国外有人称之为文本数据挖掘(Text Data Mining)和文本分析(Text Analysis)。文本挖掘一词大约出现于1998年4月在欧洲举行的第十届机器学习会议上,组织者 Kodratoff明确地定义了文本挖掘的概念,并分清它与“信息检索”的不同点和共同点。Kodratoff认为,文本挖掘的目的是从文档集合中搜寻知识,并不试图改进自然语言理解,并不要求对自然语言的理解达到多高水平,而只是想利用该领域的成果,试图在一定的理解水平上尽可能多地提取知识。因此,文本挖掘需要数据挖掘、语言学、数据库以及文本标引和理解方面的专家参与。
我国于1998年在国家重点基础研究发展规划(“973计划”)首批实施项目中,包括了文本挖掘的内容。
1.2 文本挖掘的基本概念
1、概念
文本挖掘是一个从大量文本数据中提取以前未知的、可理解的、可操作的知识的过程。文本数据包括:技术报告、文档集、新闻、电子邮件、网页、用户手册等。
文本挖掘对单个文档或文档集(如,Web搜索中返回的结果集)进行分析,从中提取概念,并按照指定的方案组织、概括文档,发现文档集中重要的主题。它除了从文本中提取关键词外,还要提取事实、作者的意图、期望和主张等。这些知识对许多,如市场营销、趋势分析、需求处理等,都是很有用的。
2、任务
主要任务有:
文本标引和短语提取,即在读取大量的非结构化文本时,应用自然语言处理技术提取文本,集中所有相关的短语。提取时要处理同义词和词义模糊现象。可以形象地把文本挖掘看作是一支荧光笔,它通读文本时高亮度显示有关的短语,这些短语放在一起就可以得到对文本的一个较好的理解。
概念提取(聚类),即对这些短语之间的关系,建立一个“词汇网”;将相关短语分组,并增强这些组中最重要的特征;最后得到的模式反映了该文本集中的主要概念。然后,通过提取出的概念集发现未知的知识。
可视化显示和导航。对挖掘得来的信息(词频、相关概率、时事性话题、地域依赖信息、时间序列等),可以从多个视角出发进行分析。
3、文本挖掘与数据挖掘
相似点在于:两者都处理大量的数据,都有归属到知识管理的知识发现领域中。
差别在于:许多经典的数据挖掘算法,如数值预测、决策树等都不太适用于文本挖掘,因为它们依赖于结构化的数据。而像概念关系分析等工作则是文本挖掘所独有的,如表所示。
文本挖掘与数据挖掘的区别
数据挖掘
文本挖掘
研究对象
用数字表示的、结构化的数据
无结构或者半结构化的文本
对象结构
关系数据库
自由开放的文本
目标
抽取知识,预测以后的状态
检索相关信息,提取意义,分类
方法
归纳学习、决策树、神经网络、粗糙集、遗传算法等
标引、概念抽取、语言学、本体
成熟度
从1994年开始得到了广泛应用
从2000年开始得到了应用
1.3 文本挖掘与信息检索
信息检索是文本挖掘相关的一个概念,但它与文本挖掘又是不同的两个概念。
信息检索是指从大量的文档集合C中,找到与给定的查询请求q相关的、恰当数目的文档子集S的过程。区别主要表现在如下几个方面:
(1)方法论不同
信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户所无法预知的。
(2)着眼点不同
信息检索着重于文档中字与词和链接;而文本挖掘在于理解文本的内容和结构。
(3)目的不同
信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。
(4)评价方法不同
信息检索用查准率(Precision, 检索到的文档中的相关文档占全部检索到的文档的百分比)和查全率(Recall, 即被检索出的文档中的相关文档占全部相关文档的百分比)来评价其性能,要求尽可能多的检索出相关文档,同时不相关的文档尽可能少。而文本挖掘采用收益(Gain)、置信度(Certainty)、简洁性(Simplicity)等来衡量所发现知识的有效性、可用性和可理解性。
(5)使用场合不同
有时信息检索系统返回太多的结果以致用户无法一一浏览,有时用户没有明确的信息
您可能关注的文档
最近下载
- 第二章 关税措施.ppt VIP
- 医保药师专业知识与技能培训题库答案-2025年华医网继续教育答案.docx VIP
- 2023版思想道德与法治课件第一章 领悟人生真谛 把握人生方向.pdf VIP
- 南京欧陆EV510高性能电流矢量变频器使用手册.pdf
- 2025至2030中国畜牧业节能风机行业市场深度调研及发展趋势与投资报告.docx
- web安全技术-实验六、文件上传漏洞.doc
- 最新2025版工程建设现行标准规范目录清单 .pdf VIP
- 2022年健康管理师《专业技能》备考习题3.docx VIP
- 2022年二级健康管理师考试练习题1.docx VIP
- 2024—2025学年广东省东莞市东华高级中学高一上学期第一次月考化学试卷.doc VIP
文档评论(0)