- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章文本分析及其在金融运用从ChatGPT开始进入21世纪后,随着互联网信息技术的发展,电子形式的文本信息日益海量化,对于文本数据的分析成为信息时代的研究热点语素与分词概念。在当今人工智能时代,利用传统的信息检索技术对于海量数据的处理效果不尽如人意,而文本挖掘作为从海量文本数据中发现潜在的、有价值知识的一种有效技术,其重要性日益突出。金融领域中文本数据具有产生速度快,蕴含信息量大的特点,如何能快速、准确地挖掘金融文本中的隐藏信息进行文本分析,是目前在金融相关研究领域的重要问题。章前导读010302把握文本大数据在当下金融学领域中的研究进展和应用场景。了解掌握文本分析中的常见概念和分析方法。掌握词频-逆文档频次(TF-IDF)算法和LDA主题模型。学习目标目录1.文本分析方法概述及其运营场景4.词频-逆文档频次( TF-IDF )算法2.语素与分词概念5.LDA主题模型算法3.词袋模型与词向量模型6.文本分析在金融领域中的应用01文本分析方法概述及其运用场景文本挖掘文本分析概述文本分析,也称为文本挖掘(Text Mining),是从文本数据中抽取有价值的信息和知识的计算机处理技术。对象是半结构化或非结构化的文档,无确定形式并且缺乏机器可理解的语义。(而数据挖掘的对象以数据库中的结构化数据为主,通过利用关系表等存储结构来发现知识)提取“有意义的信息”文本分析的应用场景金融领域文本分析指运用特定的方法挖掘文本信息内容,从而对文本的可读性、情绪语调、语义特征以及相似性等文本特征进行分析。例如:索斯鲁德(2019)利用挪威日度频率的商业新闻数据和季度GDP增长率数据,构建了日度经济周期指数。麦克马洪等人(2018)从事件分析出发对中国人民银行政策沟通效果进行了研究,包括政策沟通的类别、参与政策沟通的人员信息等。投资者和媒体关注度以及投资者情绪分析、管理层语调分析、以及文本可读性度量指标等。一些较为前沿的指标构建也日益流行,如迷雾指数(Fog Index)、新闻隐含波动率指数(News Implied Volatility),以及经济政策不确定性指数等等。文本分析的优缺点优 点缺 点一、提供了文本形式的非结构化数据,丰富了数据类型,从而拓展了研究对象和研究范围;一、文本信息本身并不明确,必须经过加工处理才能用于计量分析,而这可能会引入噪音甚至错误,同时数据处理的可重复性不一定能实现;二、文本大数据拓展了原来的研究边界,如引入语言学开展可读性研究;二、文本数据虽然可能包含传统财务数字没有的信息,但也可能是管理层操纵文本的表现;三、提供新的工具、变量和指标;三、应用文本大数据分析技术研究会计和金融问题,对研究者的综合能力尤其是编程和数量分析能力提出了更大挑战。四、提供新的研究视角,如前文所述的一些典型应用。文本数据处理一般流程02语素与分词语素与分词语素是语言学术语,是指语言中最小的音义结合体,它的主要功能就是作为构成词语的材料。对于表音文字如英语,可以简单的理解为前缀,词干,后缀等。根据分割原理,可将现有的分词方法归纳为:字符串匹配法:将待分析的汉字串与前定的词典词条匹配,若某个字符串可在词典中找到,则记为识别出一个词。该方法的好处是简便快速,但容易存在歧义词的问题;基于理解的分词方法在分词的同时进行句法、语义分析,以改进对歧义词的处理;基于统计的分词方法则先用机器学习模型学习已经切分好的词语的规律,进而实现对未知文本的切分,常用方法包括最大概率分词法和最大熵分词法等。基于统计的分词如果有一个句子S,它有m种分词选项如下:如果我们从中选择了最优的第r种分词方法,那么这种分词方法对应的统计分布概率应该最大,即:为了简化计算,我们通常使用马尔科夫假设,即每一个分词出现的概率仅仅和前一个分词有关,即:使用了马尔科夫假设,求联合分布:通过标准语料库,我们可以近似的计算出所有的分词之间的二元条件概率,比如任意两个词w1,w2,它们的条件概率分布可以近似的表示为:其中freq(w1,w2)表示w1,w2在语料库中相邻一起出现的次数,而其中freq(w1),freq(w2)分别表示w1,w2在语料库中出现的统计次数。基于语料库建立的统计概率,对于一个新的句子,我们就可以通过计算各种分词方法对应的联合分布概率,找到最大概率对应的分词方法,即最优分词。03词袋模型与词向量模型词袋分词词袋模型(Bag-of-Words,简称BoW)是一种从文本中提取特征的方法。词袋是文本的表示,用于描述文档中单词的出现。在该模型中,文档中单词的顺序或结构的信息都被丢弃,仅关注文档中是否出现已知单词,而不是在文档中的位置。John likes to watch movies. Mary likes too.John also likes to watch football g
文档评论(0)