人工智能通识与数字素养教学课件第6章 自然语言处理.pptxVIP

  • 0
  • 0
  • 约2.58千字
  • 约 42页
  • 2026-02-25 发布于广东
  • 举报

人工智能通识与数字素养教学课件第6章 自然语言处理.pptx

;;自然语言处理概述;自然语言处理的概念;自然语言处理的发展;自然语言处理的发展-续;自然语言处理的发展-续;自然语言处理流程;应用领域;;自然语言处理技术;词法分析;词法分析;句法分析;语义分析;语义分析-续;语义角色标注

以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词-论元结构,并用语义角色来描述这些结构关系。

核心任务之一:谓词识别。以句子“小丽喜欢吃苹果”为例,谓词是“喜欢”。

核心任务之二:论元识别与标注。在上述句子中,施事者是“小丽”,动作的发出者;受事者是“吃苹果”,动作的承受者,“吃苹果”是动宾短语,作为“喜欢”的宾语,整体是受事,如果进一步拆分,“苹果”是“吃”的受事。

标注后的句子可以表示为:“[施事者]小丽[核心谓词]喜欢[受事者]吃苹果”。;语义分析的应用场景很多

信息检索:理解用户查询的意图,提高搜索结果的准确性和相关性

机器翻译:理解源语言文本的含义,并将其准确地翻译成目标语言

智能问答:理解用户问题的含义,并从知识库中提取相关答案

情感分析:判断文本所传达的情感倾向,为后续的舆情监测、品牌口碑管理等任务提供支持

自然语言生成:生成符合语法和语义规则的文本;文本分析;N-gram模型

考虑文本中连续N个词汇的序列,计算文本中不同N-gram的出现频率来评估文本的相似性,捕捉文本的局部特征。

Unigram(1-gram)——只考虑单个词;Bigram(2-gram)——考虑连续两个词的组合;Trigram(3-gram)——考虑连续三个词的组合……

适用于捕捉较短文本序列的局部特征,部分解决了词袋模型忽略词序的问题,但对长文本和上下文依赖关系的处理能力有限。

词嵌入

是一种把词语映射为实数域向量的方法,如Word2Vec、Glove等。

词嵌入能够捕捉词与词之间的语义关系,将具有相似语义的词语映射到向量空间中相近的位置,使得计算和存储更为高效。

;循环神经网络(RecurrentNeuralNetwork,RNN)

是一种以序列数据为输入,在序列的演进方向进行递归,且所有节点按链式连接的递归神经网络。

它的核心在于其循环结构,即网络的??出会作为下一个时间步的输入

如:我喜欢吃苹果,因为它很甜;文本生成;基于LSTM的文本生成过程的关键设计思路如下:

“门控开关”机制

信息过滤与选择

实现技术与方法

LSTM在文本生成中的优势:

长期记忆能力

上下文理解能力

灵活性与泛化能力

丰富的语义表达与创造力;从广义上讲,机器翻译、自动摘要、问答系统可以视为文本生成技术的特定应用或延伸。

机器翻译:将一种自然语言的文本自动转换,“生成”另一种自然语言的文本;

自动摘要:理解长篇文本的内容,提取出关键信息,“生成”一个简洁、准确的摘要;

问答系统:理解用户的问题,从知识库中检索相关信息,自动“生成”一个准确的符合问题需求的答案文本。

;语音识别与合成;;自然语言处理应用;机器翻译;机器翻译技术的三个发展阶段

基于规则的机器翻译

依赖语言学家手工构建的语法规则和双语词典来实现语言之间的转换。;统计机器翻译

通过分析大规模双语语料中词语或短语之间的对应关系,利用概率模型找出最有可能的目标语言翻译。

例如,对于英文句子“IlikeBeijingTiananmenSquare”,系统从语料库中学习到如下短语对:“I”对应“我”,“like”对应“喜欢”或“爱”,“BeijingTiananmenSquare”对应“北京天安门”;统计机器翻译系统生成最优的翻译句子:“我爱北京天安门”。;神经机器翻译

通过训练深度神经网络,从大规模平行语料库中自动学习语言之间的映射关系。

神经机器翻译通常采用序列到序列(Sequence-to-Sequence,Seq2Seq)模型,其核心架构是编码器-解码器结构。

编码器:负责将源语言句子编码成

高维的语义向量表示,捕捉整个句

子的上下文信息;

解码器:基于语义向量表示,逐词

生成目标语言的翻译句子。

注意力机制:解码器在生成每一个词时,可以动态地“关注”源语言句子中与当前词最相关的部分,从而提升翻译的准确性和上下文一致性。

Transformer是当前神经机器翻译中最具代表性的模型结构。

;例:“IlikeBeijingTiananmenSquare”

在生成第一个词“我”时,模型会将注意力集中在“I”上;在生成“爱”时,则更关注“like”;而在处理地名“北京天安门”时,模型能识别出“BeijingTiananmenSquare”作为一个整体语义单位翻译为“北京天安门”。

最终,得到翻译结果为“我爱北京天安门”。;成功案例

Google神经机器翻译系统(GNMT)

ChatGPT与多语

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档