一种基于奇异值分解的双语信息过滤算法ξ.pdfVIP

  • 2
  • 0
  • 约2.14万字
  • 约 8页
  • 2017-09-02 发布于天津
  • 举报

一种基于奇异值分解的双语信息过滤算法ξ.pdf

一种基于奇异值分解的双语信息过滤算法ξ

中 文  信  息  学  报 第 13 卷 第 3 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 13 No. 3 一种基于奇异值分解的双语信息过滤算法 路海明 徐晋晖  卢增祥  李衍达 清华大学自动化系  北京  100084   清华大学计算机系  北京  100084 摘要  本文提出了一种基于 SVD (奇异值分解) [ 1 ] 的双语信息过滤[2 ] 算法 ,将双语文档进 行了统一的表示 ,使得适应于单语过滤的算法可以方便地用于双语过滤 , 同时对文档向量进行 了压缩 ,滤去了噪声 。在应用方面 ,将双语过滤算法用于互联网上的个性化主动信息过滤 。 关键词  双语信息过滤  SVD  互联网 Bookmark 服务 一 、引言 互联网上的信息中英文并存 , 国内用户 ,需要同时获取中英文信息 ,而现在的个性化信息 服务只是针对一种语言进行的。用户建立了中文下的用户模型之后 ,希望获得 自己喜好的英 文资源 。即能够同时为用户提供两种语言的信息过滤 。双语过滤指“根据用户在一种语言里 的兴趣表达 ,产生两种语言的推荐结果”,如给定表达用户需求的中文向量 ,能够向用户推荐满 足用户需求的中英文两种语言的文档 。为解决这个问题 ,主要有基于机器翻译的算法和基于 统计学的算法 。 1. 1  基于机器翻译的算法[2 ] 1. 翻译关键词 用户的需求用中文关键词查询向量表示 ,将每个关键词翻译成英文 ,形成英文向量 ,再去 查询英文文档 ,进而返回推荐的英文文档 ,实现双语过滤 。 2 . 翻译文档 用户的需求用中文关键词查询向量表示 ,将所有英文文档进行全文翻译 ,产生中文文档 , 用中文关键词向量查询翻译产生的中文文档 ,产生用户需要的中文文档 ,对应的英文文档推荐 给用户 ,实现双语过滤 。 机器翻译方法的主要优点是通俗易懂 、实现方便 、效率较高 ,但机器翻译本身仍存在很多 困难 ,导致信息过滤的结果也不理想 。当前信息过滤的算法本身也有较大误差 ,人们似乎还能 够容忍机器翻译带来的误差 ,基于机器翻译的信息过滤还 占有一定的市场 。 1. 2  基于统计学的算法[4 ] 统计学算法 ,采用训练文档集 ,其中的每篇中文文档都有对应的英文文档 。其匹配的基本 方式仍旧是根据矢量空间模型 Vector Sp ace Model (V SM) [5 ] ,用户需求和文档都表示成向量 , 利用余弦计算相似度 。 例如用户的需求向量 本文于 1998 年 12 月 11 日收到 18 → ( ) t q = q1 , q2 , …, qn   表示文档的向量 → d = ( d 1 , d2 , …, d n) t   则两者之间的相似度 n q d → → ∑ i i → → i = 1 s i m ( q , d) = co s ( q

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档