搜索演讲稿.doc

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索演讲稿

搜索演讲稿 声音检索 第一、什么是声音 声音是一种压力波:当演奏乐器、拍打一扇门或者敲击桌面时,他们的振动会引起介质——空气分子有节奏的振动,使周围的空气产生疏密变化,形成 疏密相间的纵波,这就产生了声波,这种现象会一直延续到振动消失为止。 声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换 Fourier Transform 。 因此,一般的声音总是包含一定的频率范围。人耳可以听到的声音的频率范围在20到2万赫兹之间。高于这个范围的波动称为超声波,而低于这一范围的称为次声波。狗和蝙蝠等动物可以听得到高达16万赫兹的声音。鲸和大象则可以产生频率在15到35赫兹范围内的声音。 第二、搜索的原理 网络爬虫是搜索引擎的下载系统,它的作用是内容的获取,手段就是在万维网中通过链接不断爬取收集各类网页。但是互联网的页面浩如烟海,而且每天不断有新的内容产生,根 据爬取目标和范围,可以将爬虫简单分为以下几类: 批量性爬虫:明确的抓取目标和范围,达到即停止 增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应。通用商业引擎一般都是这类 垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤。 爬虫在爬取网页的时候,应该怎样确定下一步的目标呢?主要有以下策略: 宽度优先:最简单的方式,即将某个页面中的链接依次加入待爬取队列 局部PageRank:PageRank是一种网页重要性指标,这种方式根据一定时期内的局部PageRank值决定下一步爬取目标 OPIC:当下载当前网页后,将其重要性平均分给包含的链接,每次选取最重要的页面,不用迭代计算,速度较快 大站优先:思想很简单,以网站为单位衡量页面重要性。 接下来,简要介绍一下搜索引擎中的一个重要问题:暗网抓取。所谓暗网,是指常规方式很难爬到的网页,而在网络中,这样的网是大量存在的。有的网页没有外链,有的主要内容存储于数据库中 如携程网 ,没有链接指向这些记录。暗网挖掘是商业搜索引擎的一大研究重点,Google是这样,百度的“阿拉丁”计划也在于此。 第三、如何实现声音搜索 那么究竟是什么产生了音色呢?答案是谐波。我们知道声音是振动产生的,而一个物体来回振动,几乎不可能一直按照确定的周期振动的。也就是说一个物体发生的同时,会发出很多不同频率的波(谐波)。这许多不同频率的波由于相位差很小(也就是相隔时间很短),人是无法单独分辨的,所以这些波会混合起来一起给人一个整体的感受,而这个感受就叫做音色。正是由于不同的声音里所包含的不同频率的波的频率,响度,和分布都不同,才导致了我们能分辨各种声音。 你可能会有点糊涂。既然每一个声音都包含很多个频率的声波,那我们又是怎么分辨音调的呢?答案是,一个声音中某一个频率的相对量最大的那个频率决定了声音的音调。比如说一个声音里如果有3单位的444hz(la音),1单位222hz的频率,那么我们听其来就是la音。而有3单位的444hz,1单位的333hz的频率,那我听起来仍然是la音,只不过音色不同罢了。 如果一个声音中从1到20K赫兹频率的波都有,并且都是1:1的关系,即相对强度都相同。这样一个声音就称为白噪音,听起来就和收音机收不信号时的音色一样。这就是一个人造音色的例子(因为这种声音再自然界是不会有的)。 也就是说,如果我有2万只音箱,每一个音箱分别对应放从 1到20k赫兹不同频率的声波。那么我通过开关不同的音箱,调节每个音箱的音量,从理论上讲我就可以得到任何我想要的音色。不论是韩红的声音还是孙楠的声音,小提琴的声音还是汽车刹车的声音。 下面用数学的方法来分析一下你所提的例子(觉得头痛可以跳过数学部分)。 学过物理的人因该知道,我们可以用一个sin或者cos函数来描述一个声波如 coswt 其中w 就是声波的频率。 而我们知道, 任何一个声音fx都可以写成下面的形式; fx a1coswt+b1sinwt+a2cosw2t+b2sinw2t+a3cosw3t+b3sinw3t+ … 这个式子中的 w1 w2 w3 … 就是一个声音所包含的各种分振动的频率,a b 就是分振动所占的分量。 一个声音所包含各种不同的w1 ,w2 ,w3 和不同的a b 就是形成音色的关键参数。一般的,如果w1,w2,w3… 分布没有规律,就成为噪声,而w1,w2,w3…成倍数分布,就成为乐音。 下面看看,韩红和孙楠的问题。 我们知道,Do这个音的频率是261.6赫兹。也就是说他们如果都唱DO这个音的话,261.6这个频率的声音肯定是相对量最大的声音,所以听起来他们发出的声音都是DO。但是两人声音的其他频率又个

您可能关注的文档

文档评论(0)

raojun00003 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档