- 1
- 0
- 约7.64千字
- 约 24页
- 2026-02-26 发布于广东
- 举报
人工智能通识(理工科)北京科技大学(仅用于个人学习,请勿上传网络,水平有限,难免有错,请不吝赐教,若因使用该课件造成不良后果,由使用人承担)
主要内容自然语言处理概述及发展语言学基础自然语言处理的主要应用领域词表示与词嵌入语言模型大语言模型
自然语言处理概述自然语言处理(NaturalLanguageProcessing,NLP)是人工智能和计算语言学相结合的一个重要分支NLP实现计算机对人类自然语言的分析、理解和生成
自然语言处理的发展以统计方法为主的自然语言处理基于规则的自然语言处理以统计方法和特征工程为主的自然语言处理基于深度学习的自然语言处理
词法分析词法分析是将输入的句子或文本分解为最小的语言单位—词汇或词语(Lexemes)的过程分词分词是将连续的字符序列分割成具有明确含义的独立词语英文文本单词之间由空格或标点符号标识分隔中文文本借助一定规则或统计方法来进行分词例:“我爱自然语言处理”,分割为:“我”、“爱”、“自然语言处理”词性标注词性标注为每个词语分配一个词性标签例:句子“我爱自然语言处理”中的“我”是名词,“爱”是动词。
句法分析识别词语之间的语法关系句法树-将句子分解为层次化的结构句法规则S-NPVPNP-DetNVP-VNP
语义分析将句子的语法结构转换为实际含义词义消歧根据上下文信息区分词汇的不同含义,确保理解的准确性语义表示整个句子的语义信息转化为机器能够理解的形式例:“所有猫都是动物”可以表示为:?x(Cat(x)→Animal(x))指代消解在文本中确定代词(如“他”、“它”)所指代的实体
自然语言处理的主要应用领域机器翻译情感分析对话系统与聊天机器人问答系统语音识别与合成
词表示与嵌入词表示是NLP核心环节,通过将词语转为向量为语义理解、信息检索、情感分析等任务提供关键特征支持传统方法-独热编码独热编码将每个单词类别转换为一个二进制向量,其中只有一个位置上的值为1,其余位置上的值为0词嵌入是将词汇映射到连续低维空间的技术,能让语义相似的词在向量空间中距离更近。tokend1d2d3d4dog-0.40.370.02-0.34cat-0.15-0.02-0.23-0.23lion0.19-0.40.35-0.48tiger-0.080.310.560.07elephant-0.04-0.090.11-0.06cheetah0.27-0.28-0.2-0.43monkey-0.02-0.67-0.21-0.48rabbit-0.04-0.3-0.18-0.47mouse0.09-0.46-0.35-0.24
近义词与上位词分布式词表示中,相似的词会被映射到距离较近的向量空间分布式词表示可以通过训练模型自动学习到词汇之间的层级关系
语言模型根据已有的词序列预测下一个词的概率N-gram模型是一种基于统计的语言模型,通过计算一组连续N个词语的联合概率来预测下一个词神经网络模型给定前面的词,模型通过神经网络的激活函数来生成下一个词的预测
大语言模型概述在大规模语料库上进行训练,拥有数十亿甚至数千亿参数的深度学习模型基于Transformer架构训练过程通常包括预训练和微调两个阶段
常用的大模型介绍大模型GPT系列:由OpenAI开发,包括GPT3.5、GPT4、GPT4o等版本。这些模型以其强大的语言生成能力和深刻的模型进化历程而闻名,是自然语言处理领域的重要模型之一。GPT模型是基于Transformer的解码器部分构建的,它采用了Transformer的自注意力机制来建模语言数据中的长距离依赖关系。文心一言:由百度开发,是一种基于Transformer架构的大型语言模型,旨在提供高效的自然语言处理能力。这是一种基于BERT(BidirectionalEncoderRepresentationsfromTransformers)的预训练语言模型,同样采用了Transformer架构。BERT是一种双向Transformer模型,它同时关注输入序列中前后的词汇,通过掩码语言模型(MaskedLanguageModel,MLM)进行训练,即模型会随机掩盖一部分输入词,然后通过上下文信息来预测这些被掩盖的词。BERT更适合分类、序列标注等任务,因其能够在双向上下文中进行预测,捕捉了更全面的上下文信息。豆包:字节跳动为创作者打造的AI助手,支持视频脚本撰写、文案生成、营销策划等,具备聊天机器人、写作助手、英语学习助手等功能。Kimi:由月之暗面(MoonshotAI)?公司开发的大语言模型,以其卓越的长文本处理能力和强大的上下文理解而闻名。天工:由昆仑万维开发,昆仑万维在AI领域的旗舰产品,采用MoE专家混合模型架构,响应速度快,
原创力文档

文档评论(0)