文本挖掘方法概述讲解.ppt

下载文档 降价啦

23
0
约2.97千字
约 25页
2016-03-11 发布于湖北
举报
版权申诉
保障服务

文本挖掘方法概述讲解.ppt

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本挖掘方法概述讲解.ppt

文本挖掘过程与方法简介 PPT模板下载：/moban/ 行业PPT模板：/hangye/ 节日PPT模板：/jieri/ PPT素材下载：/sucai/ PPT背景图片：/beijing/ PPT图表下载：/tubiao/ 优秀PPT下载：/xiazai/ PPT教程： /powerpoint/ Word教程： /word/ Excel教程：/excel/ 资料下载：/ziliao/ PPT课件下载：/kejian/ 范文下载：/fanwen/ 试卷下载：/shiti/ 教案下载：/jiaoan/ 大数据分析技术文档物征提取/文本表示特征选择挖掘方法获取知识模式知识用户评价 ? ? ? ? 文本挖掘的一般方法数据准备 01 分词及词性标注 02 03 文本相似度计算和主题模型 04 情感计算数据准备 01 分词及词性标注 02 03 文本相似度计算和主题模型 04 情感计算数据获取网络文本数据包括各大门户网站的新闻、论坛的帖子、微博、博客等等。爬取数据可以使用“火车头”、“网络神采”等工具。也可以使用java、python等的开源的爬虫框架。自己编写爬虫的话，对于网页解析可以用“正则表达式”或 Beautiful soup。数据获取——常用两个类库 Selenium①一个用于Web应用程序测试的工具。②直接运行在浏览器中的一款测试工具，和真正的用户打开浏览网页一样。③用selenium打开网页后，使用beautiful soup解析加载页面的内容，其主要的功能特点能让我们非常精确地获取网页数据。 Beautiful Soup ①提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。②它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。使用selenium模拟用户点击网页，打开页面后使用beautiful soup将其网页内容解析，获取我们想要的数据，将两者结合，就能够将各个机构提供的数据从其网页上抓取下来。数据存取对于数据量不是很大的话可以用json和csv格式来存储，比较好处理，对于数据量很大的话就直接存入数据库（如sqlserver）中。对于有些数据结构，存入非关系型数据库比较好，常见的非关系型数据有MongoDB等，具体可以参考/。示例——爬取中国房地产信息网的数据使用python的scrapy框架爬取了中国房地产信息网的政策动向中的土地政策、金融政策、财税政策、保障政策和中介政策。并以csv格式存取。数据准备 01 分词及词性标注 02 03 文本相似度计算和主题提取 04 情感计算中文分词及词性标注如果以每条评论为单位来进行产品特征评论语句来分类容易产生混淆分词之前需要对文本进行分句，可以用Python程序按照标点（或空格）分句。中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。中文分词工具中文分词工具主要有MSRSeg、?Hylanda?、HIT、ICTCLAS等。其中ICTCLAS是中国科学院计算机研究所研制的。主要功能包括中文分词、词性标注、命名实体识别、新词识别同时支持用户词典。是当前世界上最好的汉语词法分析器。另外，Python的jieba扩展包用于分词也是非常好的工具。去除停用词在进行了分词和词性标注之后，得到的数据对我们来说还是冗余的，一些介词、量词、助词、标点符号等对文本研究无意义的词，需要剔除，所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。停用词和标点符号的过滤我们采用根据停用词表取出停用词，再使用python编写过滤程序。分词示例原始文本分词后词性标注数据准备 01 分词及词性标注 02 03 文本相似度计算和主题模型 04 情感计算文本相似性计算计算文本的相似度在工程中有着重要的应用，比如文本去重，搜索引擎网页判重，论文的反抄袭，ACM竞赛中反作弊，个性化推荐、社交网络、广告预测等