- 2
- 0
- 约3.33万字
- 约 49页
- 2026-06-06 发布于江西
- 举报
自然语言处理技术与产业发展手册(执行版)
第1章自然语言处理技术基础与核心算法
1.1语义理解与文本表征技术
本节主要探讨如何将人类自然语言转化为计算机可理解的数学形式,这是构建一切NLP系统的基石。
词向量(WordEmbedding)通过映射单词到连续向量空间,捕捉语义相似性。例如,在Word2Vec模型中,king-man=queen-woman,当输入king和queen时,模型会输出一个夹角接近90度的向量,直观体现了两者语义上的对立关系。词袋模型(Bag-of-Words,BoW)将文档简化为词频统计向量,忽略词序。若文档为thecatsatonthemat,其向量仅包含the,cat,sat,mat的计数,完全丢失了cat在on之前的语法信息。
词嵌入(WordEmbedding)通过神经网络学习向量空间,如GloVe或FastText。例如,FastText通过子词(如cat、cats、catfish)的上下文来预测词向量,使得cat和cats的向量夹角非常小,准确反映了词频与词形的关系。上下文无关向量(Context-AgnosticEmbeddings)如Word2Vec基于静态语料库训练,假设词义不随上下文变化。而BERT等基于预训练大模型的方法,利用上下文依赖学习到了动态的语
您可能关注的文档
最近下载
- 【西门子】异步电机 1PH7 (PM).pdf VIP
- 浙教版八年级上册第五章一次函数竞赛题(含答案).docx VIP
- 化工工艺优化方法.pptx
- 约克离心机组操作维护手册.pdf VIP
- 语文【全国第二高中】河北衡水中学2025-2026学年高三年级下学期综合素质评价三(3月底)(1).docx VIP
- 弱电及消防泵站设备设施维修养护运维 投标方案(技术方案).doc
- 2024年9月21日四川省市直遴选面试真题及答案解析(结构化).doc VIP
- 2024年6月15日四川省发改委遴选面试真题及答案解析.docx VIP
- 2026年江苏苏州市振华中学中考历史二模试题(武大啊).pdf VIP
- 一次函数(竞赛题选讲).doc VIP
原创力文档

文档评论(0)