- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高级搜索方法毕业论外文翻译
A 译文
高级搜索方法
搜索关键字方式:如输入“线性”和“代数”可以很容易出现成百上千篇的文献,其中有一些甚至可能与线性代数方面毫无关系的文章。如果我们增加搜索词的数量,而且要求所有的搜索词都匹配,然后我们就可以减少一些至关重要的文献文档被排除掉的风险。我们进行数据库的搜索时应该优先考虑那些含有频率相对较高的最为匹配的关键词的文档,而不是扩大搜索列表中的所有匹配的词。为了搜索到与向量X相关的文献,为达到这一目标,我们需要找到数据库的列矩阵A。将两个向量紧紧地联系起来的最好的方法就是定义向量之间的夹角。这个知识点我们将在第五章的第一节里学习到。
在我们已经对奇异值分解的相关知识有所了解之后,我们也将重新审视信息检索应用程序(第六章,第五节)。这种分解可以更加简便的找到近似的数据库矩阵,这样将大大加快搜索。通常它有过滤掉噪音的好处,也就是说,使用近似版本的数据库矩阵可能会产生自动消除掉一些使用关键词在不必要的无关重要的文献文档上的作用。例如,一个牙科学生和一个数学的学生可能都会使用微积分作为他们的一个搜索词。因为数学的列表搜索使用近似数据库矩阵可能会消除掉所有关于牙科的文档。同样道理,数学文件将被过滤掉在牙科学生的搜索文件里。
网络搜索和页面的排名
现代网络搜索可以轻易涉及到含有成千上万的关键词的数十亿文档。事实上,截止2004年03月,就有超过四十亿个网页出现在互联网上,而且仅仅在单一的一天中对于通过搜索引擎获取或更新多大100个亿的网页这样的事是不常见的。虽然数据库矩阵对页面在网页上的作用是非常之大,但由于矩阵和搜索矢量备件搜索可以被大大的简化;也就是说,任何列中大部分的条目是0。
互联网搜索引擎,更好的搜索引擎会做简单的匹配搜索来找到所有关键词的页面,但是他们不会在对关键词的相对频率的基础上有所要求。由于互联网的商业本质,人们要卖的产品可能会故意重复使用关键词来确保他们的网站排名较高的任何相对频率搜索。事实上,很容易地列出关键词的几百倍。如果单词的字体颜色配上页面的背景色,然后观众会不知道这个词是重复。
用于网络搜索的更复杂的算法是必要的页面排名包含所有的矩阵模型概率分配在特定的随机过程。这种类型的模型称为马尔可夫过程或一个马尔可夫链。在第三节,我们将会看到第6章如何使用马尔可夫链模型的网页浏览和获取的网页排名。
相对频率搜索
搜索的商业数据库通常找出所有包含搜索词的关键文件然后以基于相对频率的文件。在这种情况下,数据库条目矩阵应该代表的第六个字数是代数的所有数据库关键词和应用第八字的相对频率,在那里所有的单词按字母顺序排列。如果说,在数据库中,9号文件包含从词典共发生200次,如果关键词字代数发生10次在文档和Word中的应用发生了6次,然后对这些词的相对频率是10/200和6/200,数据库和相应的矩阵条目。
附录B 外文原文
Advanced search methods
A search for the key words such as linear and algebra could easily turn up hundreds of documents, some of which may not even be about linear algebra. If we were to increase the number of search words and require that all search words be matched, then we could run a risk of excluding some crucial linear algebra documents. Rather than match all words of the expanded search list, our database search should give priority to those documents that match most of the key words with high relative frequencies. To accomplish this, we need to find the columns of the database matrix A that are “closest” to the search vector x. One way to measure how close two vectors are is to define the angle between the vectors. We will do this in Section 1 of Chapter 5.
We will also revisit
您可能关注的文档
- 高中语文苏教版修短篇小选读课件:专题六 第14课 鉴赏家.ppt
- 高中语文苏教版选修唐宋八大家散文选读课件:题一 第3课朋 党 论(自读课).ppt
- 高中语文苏教版选修短篇小选读教学案:专题四 8课 高女人和她的矮丈夫 Word版含答案.doc
- 高中语文苏教版选修短篇小选读课件:专题一 2课 看不见的珍藏.ppt
- 高中语文苏教选修短篇小选读教学案:专题六 第14课 鉴赏家 Word版含答案.doc
- 高中语法定从的详细讲解.doc
- 高中调节主题班会.ppt
- 高中高考政治-微专题11)描述说明类主观(全站免费).doc
- 高中鲁科版化学选修3《1 原子结构模型》课件.ppt
- 高二( 2 班家长会.ppt
原创力文档


文档评论(0)