- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
掌握句法分析?深入文本进阶处理
句法分析简介HanLP简介
句法分析简介句法分析:句法结构分析、语法分析。目的分析一句话的语法结构,包括词性、句法关系等将自然语言句子转换为一种形式化的结构,如语法树、依存图等基本思路
句法分析简介语法树:用于表示句子结构的树形结构。每个节点表示一个语法单位(如词组或从句)。每个节点之间通过边连接表示语法单位之间的句法关系。例:为中华民族崛起而读书。
句法分析简介语法规则模型:无约束短语结构文法(UPSG)上下文有关文法(Context-SensitiveGrammar,CSG)上下文无关文法(Context-FreeGrammar,CFG)正则文法(RegularGrammar)
句法分析简介无约束短语结构文法(UPSG)规则由产生式组成:产生式左侧是一个非终结符;产生式右侧是一个由终结符和非终结符组成的符号串。每个非终结符都表示一个语法范畴或语法成分。终结符则表示实际的单词或标点符号。
句法分析简介无约束短语结构文法(UPSG)例:以全面脱贫为重点,脱贫攻坚,实现乡村振兴。
句法分析简介句法分析应用:机器翻译识别源语言和目标语言之间的语法结构差异,以更准确地进行翻译。问答系统帮助理解用户提出的问题,并生成相应的查询语句。信息抽取识别实体、关系等信息,以更好地提取所需的信息。
HanLP简介Java开源自然语言处理工具包分词词性标注命名实体识别依存句法分析语义角色标注
HanLP简介在中文NLP领域的应用文本分类情感分析机器翻译信息抽取问答系统
HanLP简介特点:高精度高效率易用性丰富的文本处理功能关键词提取摘要生成繁简转换拼音转换
HanLP简介句法分析的主要函数:函数功能HanLP.parseConstituent对指定的句子进行成分句法分析,返回一个包含成分关系的列表HanLP.parseConstituentList对指定的句子进行成分句法分析,返回一个包含所有单词的列表,每个单词都包含其在句子中的位置、词性标注以及成分关系等信息HanLP.parseDependency对指定的句子进行依存句法分析,返回一个包含依存关系的列表HanLP.parseDependencyList对指定的句子进行依存句法分析,返回一个包含所有单词的列表,每个单词都包含其在句子中的位置、词性标注以及依存关系等信息HanLP.parseDependencyArray对指定的句子进行依存句法分析,返回一个二维数组,其中每一行表示一个单词,每列分别表示单词的索引、单词的内容、词性标注、依存关系以及依存关系中父节点的索引HanLP.parseDependencyTree对指定的句子进行依存句法分析,返回一个依存句法树,其中每个节点代表一个单词,节点之间的连线代表依存关系HanLP.parseDependencyGraph对指定的句子进行依存句法分析,返回一个依存句法图,其中每个节点代表一个单词,边代表依存关系,节点属性包括单词的内容、词性标注等信息
了解文本向量化?深入文本进阶处理
知识引入文本向量化将文本表示成一系列能够表达文本语义的向量。在NLP中,文本向量化是一个重要环节,其产出的向量质量将直接影响到后续模型的表现。NLP
知识引入NLP领域特性计算机任何计算的前提都是向量化,而文本难以直接被向量化。文本的向量化应当尽可能地包含语言本身的信息,但文本中存在多种语法规则及其他种类的特性,导致向量化困难。自然语言本身可体现人类社会深层次的关系(如讽刺等语义),这种关系会给向量化带来挑战。
此外,在文本向量化的过程中,根据映射方法的不同,将其分为文本离散表示和文本分布式表示。在实际应用中,可根据具体情况选择适合的方法。知识引入
文本离散表示文本分布式表示
文本离散表示离散表示:基于规则和统计的向量化方式。特点:忽略文本信息中的语序信息和语境信息;仅将其反映为若干维度的独立概念。问题:如主语和宾语的顺序问题,无法区分“我为你鼓掌”和“你为我鼓掌”。独热表示BOW模型TF-IDF表示
独热表示独热表示用一个长的向量表示一个词。向量长度为字典的大小。每个向量只有一个维度为1。其余维度全部为0。向量中维度为1的位置表示该词语在字典中的位置。
独热表示独热表示示例:实现中华民族伟大复兴实现民族伟大团结构造字典:{实现:1,中华:2,民族:3,伟大:4,复兴:5,团结:6}向量化:独热向量表示实现:[1,0,0,0,0,0]中华:[0,1,0,0,0,0]民族:[0,0,1,0,0,0]伟大:[0,0,0,1,0,0]复兴:[0,0,0,0,1,0]团结:[0,0,0,0,0,1]
独热表示独热表示优缺点:优点:操作简单缺点:维数过大矩阵稀疏不能保留语义
BOW模型BOW模型用一个向量表示一句话或一个文档。忽略文档的词
文档评论(0)