数据挖掘 一、引言 二、模型建立 三、代码与实验 四、结论 目录 语义向量空间模型产生的词向量被广泛用于信息检索系统、文档分类系统、智能问答系统、命名实体识别系统等等,显示出其优越性。 目前训练词向量的模型可以为两大类:1.全局矩阵因式分解算法(LSA)2.局部文本窗算法。 全局矩阵因式分解可以有效地利用统计信息,然而难以在词类比方面的工作体现有效性;局部文本窗弥补了全局矩阵因式分解的弱点,但是无法对全局信息进行有效利用。 引言 本文作者认为有很多词向量表示模型虽然成功使用向量运算捕捉了词义、语义的规则,然而有个缺点就是这些规则不够透明。本文将提出一种直观的方法-----全局对数双线性回归模型(log-bilinear)来揭示这些规则,结合了全局矩阵因式分解和词窗的方法。全局对数双线性回归模型既可以完成线性的语义关系,还可以有效地利用全局的有效信息。 引言 模型建立 符号定义: X为词-词共现矩阵,每个元素代表共现次数,如Xij表示Wj在Wi出现的上下文窗内出现的次数,由此我们可以计算出Wj在Wi文本窗内出现的概率Pij。 当我们要确定一个词k与另外两个词i、j关系的区别时,我们可以使用Pik/Pjk来表示。当我们对所有的K都进行了统计,我们就可以充分表现词ij的区别了。 因此,我们可以定义一个函数使得: 然而我们想线性的来表示词与词的区别,因此改造我们的函数得到: 模型建立 然而,存在个问题。上式明显把目标词ij和上下文词k置于不同等位置,区别对待了目标词和上下文词,因此我们继续重构函数: 模型建立 为了对称性, 考虑到Log(Xi)是词i的独立成分,因此我们为每个词引入一个偏置向量b,因此我们继续重构函数: 最终得到了当前词与上下文词的关系式了,接着我们就可以开始构造误差函数了。 模型建立 考虑到可能存在一些上下文词很少出现,为了减少不必要噪声,我们引入一个权重函数f: 我们使用最小二乘回归模型,因此我们的误差函数为 代码与实验 LSA:/roger__wong/article/details 浅层语义分析(LSA)是一种自然语言处理中用到的方法,其通过“矢量语义空间”来提取文档与词中的“概念”,进而分析文档与词之间的关系。LSA的基本假设是,如果两个词多次出现在同一文档中,则这两个词在语义上具有相似性。LSA使用大量的文本上构建一个矩阵,这个矩阵的一行代表一个词,一列代表一个文档,矩阵元素代表该词在该文档中出现的次数,然后再此矩阵上使用奇异值分解(SVD)来保留列信息的情况下减少矩阵行数,之后每两个词语的相似性则可以通过其行向量的cos值(或者归一化之后使用向量点乘)来进行标示,此值越接近于1则说明两个词语越相似,越接近于0则说明越不相似。 附录 1 MH的LBL模型(log-bilinear) h?在这里表示隐藏层,含有语义信息。Hi?就是一个?m×m?的矩阵,该矩阵可以理解为第?i?个词经过?Hi?这种变换之后,对第?n个词产生的贡献。因此这里的隐藏层是对前?n?1?个词的总结,也就是说隐藏层?h?是对下一个词的一种预测。预测下一个词为?wj?的 log 概率是?yj,它直接就是?C(wj)?和?h?的内积。内积基本上就可以反应相似度,如果各词向量的模基本一致的话,内积的大小能直接反应两个向量的 cos 夹角的大小。这里使用预测词向量?h?和各个已知词的词向量的相似度作为 log 概率。 附录 2
您可能关注的文档
最近下载
- 人美版美术一年级下册《第一单元 春天的故事》大单元教学设计2026.docx VIP
- 公转私借款合同范本.docx VIP
- IATF16949:2016中文版本含ISO9001全文依据2025年11月SI更新(包括SI1-30).pdf
- 4.成人斯蒂尔病诊疗指南2025版.pptx
- 第一单元《春天的故事》大单元(教学设计)人美版2025美术一年级下册.docx VIP
- ISO42001-2023人工智能管理体系程序文件.docx VIP
- 一种火炬排放系统密封器.pdf VIP
- 提高住院患者大小便标本送检率PDCA.pptx VIP
- DB61_T 2093.5-2025 猕猴桃生产第5部分:花粉生产.docx VIP
- 无锡市轨道交通工程临时用电监理实施细则.doc VIP
原创力文档

文档评论(0)