一文看懂文本挖掘.docxVIP

下载本文档

4
0
约2.81千字
约 6页
2021-01-12 发布于天津
举报
版权申诉

一文看懂文本挖掘.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一文看懂什么是文本挖掘 SAS中文论坛今天一、什么是文本挖掘文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。文本挖掘是一个多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。二、文本挖掘有什么用文本分类文本分类是一种典型的机器学习方法，一般分为训练和分类两个阶段。文本分类一般采用统计方法或机器学习来实现。文本聚类文本聚类是一种典型的无监督式机器学习方法，聚类方法的选择取决于数据类型。首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现相关知识；其次，文档聚类可以将一类文档聚类成若干个类，提供一种组织文档集合的方法；再次，文档聚类还可以生成分类器以对文档进行分类。文本挖掘中的聚类可用于：提供大规模文档内容总括；识别隐藏的文档间的相似度；减轻浏览相关、相似信息的过程。信息检索主要是利用计算机系统的快速计算能力，从海量文档中寻找用户需要的相关文档。信息抽取信息抽取是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息。自动文摘利用计算机自动的从原始文档中提取出文档的主要内容。互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长，用户在检索信息的时候，可以得到成千上万篇的返回结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好。自动文摘能够生成简短的关于文档内容的指示性信息，将文档的主要内容呈现给用户，以决定是否要阅读文档的原文，这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。自动文摘具有以下特点：（1）自动文摘应能将原文的主题思想或中心内容自动提取出来。（2）文摘应具有概况性、客观性、可理解性和可读性。 3）可适用于任意领域。按照生成文摘的句子来源，自动文摘方法可以分成两类，一类是完全使用原文中的句子来生成文摘，另一类是可以自动生成句子来表达文档的内容。后者的功能更强大，但在实现的时候，自动生成句子是一个比较复杂的问题，经常出现产生的新句子不能被理解的情况，因此目前大多用的是抽取生成法。自动问答自动问答是指对于用户提出的问题，计算机可以自动的从相关资料中求解答案并作出相应的回答。自动问答系统一般包括 3 个组成部分：问题分析、信息检索和答案抽取。机器翻译利用计算机将一种源语言转变为另一种源语言的过程。信息过滤指计算机系统可以自动的进行过滤操作，将满足条件的信息保留，将不满足条件的文档过滤掉。信息过滤技术主要用于信息安全领域。自动语音识别自动语音识别就是将输入计算机的自然语言转换成文本表示的书面语。三、文本挖掘操作步骤 1.获取文本现有文本数据导入，或者通过如网络爬虫等技术获取网络文本，主要是获取网页HTML的形式。我们要把网络中的文本获取文本数据库（数据集）。编写爬虫程序，抓取到网络中的信息。文本预处理指剔除噪声文档以改进挖掘精度，或者在文档数量过多时仅选取一部分样本以提高挖掘效率。例如网页中存在很多不必要的信息，比如说一些广告，导航栏， html、js 代码，注释等等并不需要的信息，可以删除掉。如果是需要正文提取，可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。文本的语言学处理（1）分词经过上面的步骤，我们会得到比较干净的素材。文本中起到关键作用的是一些词，甚至主要词就能起到决定文本取向。比如说一篇文章讲的是政治还是经济，肯定是对文章中的中心词进行分析得到的结果。所以接下来的步骤就是分词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多现在针对中文分词，出现了很多分词的算法，有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等等。词性标注同时也可以使用词性标注。通过很多分词工具分出来的出会出现一个词，外加该词的词性。比如说啊是语气助词。去除停用词比如说句