一种基于奇异值分解的双语信息过滤算法ξ.pdfVIP

下载本文档

2
0
约2.14万字
约 8页
2017-09-02 发布于天津
举报

一种基于奇异值分解的双语信息过滤算法ξ.pdf

一种基于奇异值分解的双语信息过滤算法ξ

中　文　信　息　学　报第 13 卷第 3 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 13 No. 3 一种基于奇异值分解的双语信息过滤算法路海明　徐晋晖　卢增祥　李衍达清华大学自动化系　北京　100084 　清华大学计算机系　北京　100084 摘要　本文提出了一种基于 SVD (奇异值分解) [ 1 ] 的双语信息过滤[2 ] 算法 ,将双语文档进行了统一的表示 ,使得适应于单语过滤的算法可以方便地用于双语过滤 , 同时对文档向量进行了压缩 ,滤去了噪声。在应用方面 ,将双语过滤算法用于互联网上的个性化主动信息过滤。关键词　双语信息过滤　SVD 　互联网　Bookmark 服务一、引言互联网上的信息中英文并存 , 国内用户 ,需要同时获取中英文信息 ,而现在的个性化信息服务只是针对一种语言进行的。用户建立了中文下的用户模型之后 ,希望获得自己喜好的英文资源。即能够同时为用户提供两种语言的信息过滤。双语过滤指“根据用户在一种语言里的兴趣表达 ,产生两种语言的推荐结果”,如给定表达用户需求的中文向量 ,能够向用户推荐满足用户需求的中英文两种语言的文档。为解决这个问题 ,主要有基于机器翻译的算法和基于统计学的算法。 1. 1 　基于机器翻译的算法[2 ] 1. 翻译关键词用户的需求用中文关键词查询向量表示 ,将每个关键词翻译成英文 ,形成英文向量 ,再去查询英文文档 ,进而返回推荐的英文文档 ,实现双语过滤。 2 . 翻译文档用户的需求用中文关键词查询向量表示 ,将所有英文文档进行全文翻译 ,产生中文文档 , 用中文关键词向量查询翻译产生的中文文档 ,产生用户需要的中文文档 ,对应的英文文档推荐给用户 ,实现双语过滤。机器翻译方法的主要优点是通俗易懂、实现方便、效率较高 ,但机器翻译本身仍存在很多困难 ,导致信息过滤的结果也不理想。当前信息过滤的算法本身也有较大误差 ,人们似乎还能够容忍机器翻译带来的误差 ,基于机器翻译的信息过滤还占有一定的市场。 1. 2 　基于统计学的算法[4 ] 统计学算法 ,采用训练文档集 ,其中的每篇中文文档都有对应的英文文档。其匹配的基本方式仍旧是根据矢量空间模型 Vector Sp ace Model (V SM) [5 ] ,用户需求和文档都表示成向量 , 利用余弦计算相似度。例如用户的需求向量本文于 1998 年 12 月 11 日收到 18 → ( ) t q = q1 , q2 , …, qn 　　表示文档的向量 → d = ( d 1 , d2 , …, d n) t 　　则两者之间的相似度 n q d → → ∑ i i → → i = 1 s i m ( q , d) = co s ( q

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种基于奇异值分解的双语信息过滤算法ξ.pdfVIP