- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本挖掘方法概述讲解.ppt
文本挖掘过程与方法简介 PPT模板下载:/moban/ 行业PPT模板:/hangye/ 节日PPT模板:/jieri/ PPT素材下载:/sucai/ PPT背景图片:/beijing/ PPT图表下载:/tubiao/ 优秀PPT下载:/xiazai/ PPT教程: /powerpoint/ Word教程: /word/ Excel教程:/excel/ 资料下载:/ziliao/ PPT课件下载:/kejian/ 范文下载:/fanwen/ 试卷下载:/shiti/ 教案下载:/jiaoan/ 大数据分析技术 文档 物征提取/文本表示 特征选择 挖掘方法获取知识模式 知识 用户评价 ? ? ? ? 文本挖掘的一般方法 数据准备 01 分词及词性标注 02 03 文本相似度计算和主题模型 04 情感计算 数据准备 01 分词及词性标注 02 03 文本相似度计算和主题模型 04 情感计算 数据获取 网络文本数据包括各大门户网站的新闻、论坛的帖子、微博、博客等等。 爬取数据可以使用“火车头”、“网络神采”等工具。也可以使用java、python等的开源的爬虫框架。自己编写爬虫的话,对于网页解析可以用“正则表达式”或 Beautiful soup。 数据获取——常用两个类库 Selenium①一个用于Web应用程序测试的工具。②直接运行在浏览器中的一款测试工具,和真正的用户打开浏览网页一样。③用selenium打开网页后,使用beautiful soup解析加载页面的内容,其主要的功能特点能让我们非常精确地获取网页数据。 Beautiful Soup ①提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。②它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 使用selenium模拟用户点击网页,打开页面后使用beautiful soup将其网页内容解析,获取我们想要的数据,将两者结合,就能够将各个机构提供的数据从其网页上抓取下来。 数据存取 对于数据量不是很大的话可以用json和csv格式来存储,比较好处理,对于数据量很大的话就直接存入数据库(如sqlserver)中。对于有些数据结构,存入非关系型数据库比较好,常见的非关系型数据有MongoDB等,具体可以参考/。 示例——爬取中国房地产信息网的数据 使用python的scrapy框架爬取了中国房地产信息网的政策动向中的土地政策、金融政策、财税政策、保障政策和中介政策。并以csv格式存取。 数据准备 01 分词及词性标注 02 03 文本相似度计算和主题提取 04 情感计算 中文分词及词性标注 如果以每条评论为单位来进行产品特征评论语句来分类容易产生混淆分词之前需要对文本进行分句,可以用Python程序按照标点(或空格)分句。 中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。 所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。 中文分词工具 中文分词工具主要有MSRSeg、?Hylanda?、HIT、ICTCLAS等。 其中ICTCLAS是中国科学院计算机研究所研制的。主要功能包括中文分词、词性标注、命名实体识别、新词识别同时支持用户词典。是当前世界上最好的汉语词法分析器。 另外,Python的jieba扩展包用于分词也是非常好的工具。 去除停用词 在进行了分词和词性标注之后,得到的数据对我们来说还是冗余的,一些介词、量词、助词、标点符号等对文本研究无意义的词,需要剔除,所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。停用词和标点符号的过滤我们采用根据停用词表取出停用词,再使用python编写过滤程序。 分词示例 原始文本 分词后 词性标注 数据准备 01 分词及词性标注 02 03 文本相似度计算和主题模型 04 情感计算 文本相似性计算 计算文本的相似度在工程中有着重要的应用,比如文本去重,搜索引擎网页判重,论文的反抄袭,ACM竞赛中反作弊,个性化推荐、社交网络、广告预测等
您可能关注的文档
最近下载
- 自行车里程速度计设计论文(本科)毕业设计论文.doc VIP
- GBT3049—2006工业用化工产品铁含量测定的通用方法1,10—菲啰啉分光光度法.pdf
- 新版《建筑设计防火规范》(GB50016-2014年)规范编制组宣讲课件.ppt VIP
- 2024年洛阳文化旅游职业学院单招职业技能测试题库及答案(全优).docx VIP
- 环保管家服务方案.docx VIP
- 2024年洛阳文化旅游职业学院单招职业技能测试题库及答案(必刷).docx VIP
- 大数据平台数据治理规划方案.docx
- 山东文旅云智能科技有限公司笔试考啥.pdf
- 航空移动卫星通信(AMSS).ppt
- 17J008 挡土墙(重力式、衡重式、悬臂.docx VIP
文档评论(0)