基于自编码神经网络建立的搜索信息模型.docVIP

下载本文档

1
0
约6.07千字
约 11页
2016-09-04 发布于北京
举报
版权申诉

基于自编码神经网络建立的搜索信息模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于自编码神经网络建立的搜索信息模型.doc

基于自编码神经网络建立的搜索信息模型　　摘要：根据用户搜索历史，将用户关注的信息按标题分类，通过自编码神经网络提取特征值。设定学习样本标题最多为25个汉字，编码方式采用汉字机内码（GBK码）。使用MATLAB工具进行深度学习，将样本在原空间的特征表示变换到一个新的特征空间。关键字：文本特征;自编码神经网络;深度学习;Matlab 中图分类号：TP391.1 文献标志码：A Information search model based on auto-encoder neural network 　　Yi Wan，Luo Jing，Li Yong，Guo Shaoying （College of computer science and Information Engineering， Tianjin University of Science amp; Technology， Tianjin 300222， China） Abstract： According to user search history， the user information of interest by Title Classification， the auto-encoder neural network feature extraction value. Set the learning sample heading up to 25 Chinese characters， coding mode is adopted Chinese characters machine code （GBK code）. Use the MATLAB tool for deep learning， will feature in the original space representation is transformed into a new feature space. Key words： Text feature; The auto-encoder neural network; Deep learning; Matlab 　　基于自编码神经网络建立搜索信息模型的目的是根据用户搜索信息的历史，推断出网页中的内容是用户关注的信息并即时显示。首先将用户关注的历史信息按标题分类，通过自编码神经网络建立标题特征值数据库。当自编码神经网络搜索信息模型工作时，按照用户提供的关键词顺序，打开用户经常浏览的网页，读入标题文本，若具有数据库中的标题特征，则将该标题的文本内容即时显示。　　直接解析网页中的标题文本，面临的基本问题是文本的表示。如果把标题文本所有的词都作为特征项，那么太多的特征向量维数导致计算量太大。例如50个标题，每个标题25个汉字，特征项将有50×25=1250个。如果将标题中的某个关键词作为特征词，将会有几千个包含关键词的标题，从而导致读入分析量过于巨大。本文采用自编码神经网络，用映射变换的方法把原始文本特征变换为较少的新特征，提高信息搜索效率。　　1 自编码神经网络　　1.1 自编码神经网络理论　　Auto-Encoder（自编码）[1]，自编码算法是一种基于神经网络算法的无监督学习算法，与神经网络算法的不同之处是将输入值作为输出节点的输出。自编码算法的另一个特征是隐藏层节点的个数一般少于输入输出节点的个数。这样的意义是将输入的特征通过神经网络的非线性变换到节点数更少的隐藏层。因此，可以通过自编码神经网络对给定的样本进行训练学习，从而得到输入数据降维后的特征，即为隐藏层的节点数，省去了人工特征提取的麻烦。　　自编码神经网络结构示意图如图1所示[2]。这是一种深度学习的神经网络，包含了多个隐含层，整个网络是一种对称的结构，中心层的神经元的个数最少。网络通过对样本的训练可以得到一组权值系数，而输入数据通过这组权值系数表达成低维形式，从而达到了用降维后的特征表示出输入的数据。　　图1 自编码神经网络的结构　　Fig.1 The structure of auto-encoder neural network 　　1.1.1 预训练　　（1）输入参数的确定：标题是作者给出的提示文章内容的短语，标题一般都简练、醒目，有不少缩略语，与报道的主要内容有着重要的联系。如登陆我的钢铁网站，搜索钢管热点资讯，显示的标题有“我国自主研制*****油管成功替代进口”，学习样本选择50组标题，每个标题不超过25个汉字，如表1所示。　　表1 学习样本　　Tab. 1 Learning samples 　　1 　　我国自主研制高端耐热钢无缝钢管成功替代进口　　2 　　我国自主研制K55石油