- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于深度神经网络的检索相似问题
基于深度神经网络的检索相似问题
模型
邢超(chao xing)
白子薇(ziwei bai )
2016/12/27
CSLT, RIIT, Tsinghua Univ.
1. 背景 3
2. 相似问题匹配模型 4
3. 运行说明 6
3.1. 模型语料准备 6
3.2 训练与测试脚本 6
3.2.1 采样脚本 6
3.2.2 自动训练脚本 6
3.2.3 自动测试脚本 6
3.2.4 备注 7
3.3 核心程序接口说明 7
4. 实验 9
4.1. 词向量准备 9
4.2. 参数设置 9
4.3. 实验结果 9
5. 参考文献 11
1. 背景
随着网络大数据挖掘技术以及云计算技术逐渐成熟,深度神经网络在一些自然语言理解
任务中展现出远超传统方法的效果以及计算速度。其中,由微软亚洲研究院出的 DSSM
(Deep Structured Semantic Model)模型在信息检索 (IR, Information Retrieval)中
被验证有着较高的性能。DSSM 模型的基本思路是将一个检错语句通过深度神经网络抽象成
一个固定维度的向量表征,基于搜索与点击 (Search-Click)关系构造分类模型,该模型试
图将搜索语句与点击页面的标题在语义层面彼此靠近。
微软在 2012 年至 2014 年间,连续出了多个 DSSM 模型,由不同的网络结构分为:DSSM
(DNN based),CDSSM (CNN based),RDSSM (RNN based),LDSSM (LSTM based)等。其中,
综合考虑计算时间以及在线策略,本文档主要介绍 CDSSM,旨在节约计算资源的前下,保
证最大性能。
CNN 应用于自然语言理解任务早在 2012 年就有研究人员出,并且在文本分类、句子
分类以及信息检索中得到了显著的成功。一个典型的 CNN 在语言理解任务中的应用 如图一
所示。
图一 CNN 取文本信息图
CNN 能够捕获句子中不同位置的信息,并且这些信息抽象出来,用以获得较好的句子向
量表征。微软出的 CDSSM 模型,主要的贡献是:
1、出了 Tri-Letter 的方法,试图解决 OOV 的问题
2、使用 CNN 抽象搜索语句表达,并且与另一个页面 CNN 抽象模型进行 Softmax 分类,
优化不同的搜索 Query 对应点击页面的分类准确率。
CDSSM 模型图如图二所示:
图二 CDSSM 模型图
2. 相似问题匹配模型
由于上述模型在微软Bing 搜索引擎中的成功实践,我们出了一种基于 CDSSM 模
型的相似问题匹配模型,本模型针对智能问答系统中模板匹配的痛点,使用 CDSSM 模型
的基本思想,将模板问题与标准问题进行分组,优化目标试图使得组内问题的相似度大,
而不同组之间的问题相似度小。模型目标是在基于已有的标注模板进行训练,使得系统
可以识别出大部分类似标注问题的问题从而减轻标注人员的工作量。本模型与微软出
的 CDSSM 模型基本一致,但汉语和英语具有差异性,汉语无法使用 letter tri-
您可能关注的文档
- 呀诺达热带雨林开发中生态保护研究.doc
- 吕从刚教学课件.ppt
- 员工应具备的心态.ppt
- 员工意见统计表.pdf
- 周政:周自齐——清华学堂首任监督.pdf
- 和谐消费一种新的消费伦理.PDF
- 员工培训系列教材之一.PDF
- 品牌纺织服装行业一季度数据点评.PDF
- 哈佛大学校长是如何看待本科教育的.PDF
- 唯有努力生存林育德《擂台旁边》.PDF
- 2025至2030中国负离子洁面仪行业销售渠道及未来营销模式分析报告.docx
- 2025至2030中国保健功能食品行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030中国多功能呼吸机行业市场深度调研及投资前景与投资策略报告.docx
- 2025至2030中国法兰锻件市场发展现状及竞争格局研究报告.docx
- 2025至2030中国变速驱动器行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030中国公墓服务行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030中国甲醇钙行业发展现状与未来趋势研究报告.docx
- 2025至2030中国3D立体投影仪行业现状调查及前景策略分析报告.docx
- 2025至2030中国船舶主机行业创新策略与重点企业发展调研报告.docx
- 2025至2030中国电动叉车行业发展前景预测和投融资趋势分析报告.docx
最近下载
- 小学语文教学中的困惑与思考解析.doc VIP
- GBT 17888.3-2020《机械安全 接近机械的固定设施 第3部分:楼梯、阶梯和护栏》(1).docx VIP
- YST5230-2019 边坡工程勘察规范 (2).pdf VIP
- 应征入伍服兵役高等学校学生国家教育资助申请表1(样表).docx
- 21.1 一元二次方程 课件(共20张PPT).ppt VIP
- 胡寿松自动控制原理7版课后答案.docx VIP
- 冠心病健教育讲座.doc VIP
- 脑卒中一病一品护理汇报.pptx VIP
- 高中化学全套思维导图(2023 最全高清精品版).doc VIP
- 部编版六年级语文上册第一二单元综合知识测试题(有答案).docx VIP
文档评论(0)