大学课程《机器学习与经济学实证应用》PPT课件：第4讲_自然语言处理入门.pptxVIP

下载本文档

0
0
约5.42千字
约 45页
2026-01-14 发布于贵州
举报
版权申诉

大学课程《机器学习与经济学实证应用》PPT课件：第4讲_自然语言处理入门.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1第4讲自然语言处理入门

主要内容2自然语言处理概览中文分词关键词提取文本相似度

主要内容3自然语言处理概览中文分词关键词提取文本相似度

自然语言处理概览4文本大数据在经济学和金融学领域应用方兴未艾经济政策不确定性度量媒体政治倾向关注度情绪与语调意见分歧Gentzkow,M.,Kelly,T.B.andTaddy,M.,“Textasdata”,JournalofEconomicLiterature,2019,57(3),535-74.沈艳、陈赟、黄卓，《文本大数据分析在经济学和金融学中的应用：一个文献综述》，《经济学季刊》，2019年第4期，第1153-1186页。

自然语言处理概览5自然语言处理在商业中的应用机器翻译：计算机具备将一种语言翻译成另一种语言的能力情感分析：计算机能够判断用户评价是否积极智能问答：计算机能够正确回答输入的问题文摘生成：计算机能够准确归纳、总结并产生文本摘要文本分类：计算机能够采集各种文摘，进行主题分析，从而自动分类舆情分析：计算机能够判断目前舆论的导向知识图谱：知识点相互连接而成的语义网络

自然语言处理概览6文本数据分析四个步骤获取文本数据将文本库Ψ内所有文本转化数据矩阵Λ；通过计量或者统计方法F，将Λ转换成目标信息序列V，如关注度、情绪、不确定性等指数用提取出的V来解释或预测Y。

自然语言处理概览7文本大数据提取方法分词（要考虑停用词、自定义词典等）N-gram（n元词组，n取值一般为1、2、3）一般只用到词的层级，但专业人士当中也有很多人在研究“句法”

自然语言处理概览8one-hot（独热表示法）?

自然语言处理概览9One-hot示例例如，原始文本库Ψ由两条帖子组成。第一条的内容是“明天涨停。后天涨停没戏。”第二条是“玛丽有个小绵羊。”分词后得“明天、涨停、后天、没戏、玛丽、有、个、小、绵羊”九个不同词语，即??=9。用独热法则“明天”用向量[1,0,0,0,0,0,0,0,0]表示，“涨停”为[0,1,0,0,0,0,0,0,0]，以此类推。于是第一个帖子可用向量[1,2,1,1,0,0,0,0,0]表示,第二个帖子即[0,0,0,0,1,1,1,1,1]。

自然语言处理概览10One-hot弊端One-hot方法存在的几个弊端：维度灾难没有考虑同义词、近义词没有考虑一词多义没有考虑上下文

自然语言处理概览11数据矩阵的信息提取词典法：从预先设定的词典出发，通过统计文本数据中不同类别词语出现的次数，结合不同的权重来提取文本信息。（权重可以用TFIDF）机器学习One-hot+传统机器学习算法（KNN、贝叶斯、支持向量机）Word2vec+深度学习预处理模型无监督学习（LDA主题模型）

主要内容12自然语言处理概览中文分词关键词提取文本相似度

中文分词13分词的意义在语言理解中，词是最小的能够独立活动的有意义的语言成分中文没有空格等来切割词，因此需要首先进行分词处理分词有很多种办法，比如可以基于字典进行正向或逆向最大匹配法，或者基于统计规律进行分词统计分词：如果相邻的字在不同的文本中出现的次数越多，就证明这相邻的字很可能就是一个词。具体过重依赖于一系列数学模型。对于使用者，可以直接使用已成熟的分词工具包（Python中的Jieba分词）

中文分词14根据实际需求配置停用词表和自定义词典网上能找到常用的停用词表和自定义词典停用词：在对中国知网中的学术论文摘要进行分词中，额外去掉了研究、发现、本文等常用词；在对股吧论坛发帖文本进行分词中，没有将数字作为停用词删除自定义词典：论文摘要分词中，将学术论文的关键词（适当处理后）作为自定义词典；股吧分词中，将表情包、上市公司名称、代码、金融专业术语等作为自定义词典。

中文分词15词性标注学术研究中，有时候需要识别、提取某些词性的词语，其他删除不同语境下，一个词也可能具有不同的词性，一般根据语料库的统计，以频率最高的词性为准在Python当中，Jieba模块可以自动标注每个词的词性

中文分词16命名实体识别命名实体识别是自然语言处理的一个基础任务，目的是识别语料中的人名、地名、组织机构名等命名实体。3大类：实体类、时间类、数字类7小类：人名、地名、组织机构名、时间、日期、货币、百分比结合正则表达式和jieba分词，可以进行日期识别地名识别也有广泛用途，有需求时，可以在网络上寻找相关算法

主要内容17自然语言处理概览中文分词关键词提取文本相似度

关键词提取18提取关键词给定N个文章，要用计算机提取他们的关键词（AutomaticKeyphraseextraction），请问怎样才能正确做到？取每篇文章出现最多的M个词？什么词最能代表这篇文章的关键信息

关键词提取19案例假定现有长文《中国蜜蜂养殖》，准