名人演讲稿廖若雪演讲：“阿拉丁”面临两大技术挑战.doc

下载文档 降价啦

4
0
约4.63千字
约 10页
2016-01-23 发布于浙江
举报
版权申诉
保障服务

名人演讲稿廖若雪演讲：“阿拉丁”面临两大技术挑战.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

名人演讲稿廖若雪演讲：“阿拉丁”面临两大技术挑战

名人演讲稿廖若雪演讲：“阿拉丁”面临两大技术挑战　　各位来宾大家好！刚才几位佳宾从各自的角度对搜索引擎的将来做了表述，百度一样以为，搜索引擎的将来会朝着更加满足用户需求，更加智能，更加开放的方向发展，所以我们也办了这样的论坛。我希看跟大家分享一下我们是如何利用技术，包括云技术，包括开放平台如何满足客户的需求，和我们现在面临的挑战。　　我今天的演讲大概分为以下几个部份，首先是阿拉丁的起源，接下来我们一起看一下阿拉丁有甚么样的特点，这个特点会带给我们甚么样的技术题目，我们对这个题目的解决方法，最后跟大家一起看一下阿拉丁会带给我们一个怎样的未来。　　说到阿拉丁的起源，实在源于我们对搜索引擎的用户，在搜索引擎需求满足度的一个研究。我们发现，只有75%的用户的需求终究得到了满足，经过对这些不满足用户的需求进行分析我们发现，很大一部份是由于能够满足这部份用户需求的资源，目前的搜索引擎还没法覆盖到。ACS的一个数据可以做一个旁证，37%，不到一半的网页资源和现有的互联网搜索引擎技术覆盖，有尽大部份没有覆盖到的。所以说，我们必须通过发掘“暗网”才能更好的满足用户的需求。另外一个发现的题目是我们现在对用户表现的需求没法做到精确的分析，综合这两个题目，我们必须要发掘“暗网”，必须更好的分析用户需求，才能更好的满足用户需求。　　这里说到“暗网”，实在“暗网”每个人对它的定义都不太一样，在阿拉丁中，我们以为“暗网”就是目前搜索引擎所不能覆盖到的，但是可以满足用户需求的所有资源。包括分歧信息，包括数据库，包括Flash，乃至包括你我大脑中存在的信息。　　由于这个缘由，所以说我们会考虑，我们是否是可以采用用户行为分析，采用自然语言处理这个技术来更好的分析用户需求，结合“暗网”发掘出来的资源来更好的满足用户需求，这就 (此资料转贴于是阿拉丁平台的诞生。　　接下来我们看一下阿拉丁有甚么样的特点，阿拉丁的第一个特点跟刚才的“暗网”密切相干，我们需要能够容纳互联网上的各种数据，就像刚才所说的结构化的、非结构化的信息，能够把这些数据同一的依照用户的需求容纳到一个系统。第二个阿拉丁的特点是阿拉丁是一个以用户需求为基础的平台，他会分析用户的需求是甚么，根据用户的需求往找到需求呼应的资源，最后给用户一个能够满足他需求最合适的展现方式，这就是阿拉丁的一个特点。　　举个例子，用户的输进“现在几点了”，或是“现在的时间”这样的题目，那末这样的题目是怎样处理呢？首先我们会分析“现在几点了”这样的题目，用户的需求实际上是想找现有的时间，其次，现有的时间这样的资源，在阿拉丁平台中对应的资源，我们会用标准的时间服务器来获得标准的时间，最后我们知道用户只是想获得时间，我们给他时间就足够了，不需要他再次点击，所以用户会得到一个当前时间的展现。　　根据阿拉丁的特点来看的话，我们得到了阿拉丁的一些跟现有的搜索引擎不一样的地方。现有的搜索引擎主要的工作方式实际上是这样的，比如他会进行内容的分析，对网页进行分析，得到网页和需求之间的相干性，对网页的一些操纵进行分析，得到他的权威性，再结合网页的一些因子综合进行的一个排序。阿拉丁的资源，首先，阿拉丁的资源没有这些网页信息，也没有一些插进信息，所以他很难进行排序。另外，阿拉丁的数据一般都是职业化数据，这样对我们的数据分析实际上是比较好的，另外他还有一个好处，是他通常为用推送的方式来获得信息，这样的话，他会解决题目的主要方面。　　回纳一下，技术挑战是两个方面，一个方面是需求如何辨认，另外一个方面是如何进行排序。需求辨认是一个很大的题目在里面，为甚么？这里说两个方面，第一个方面是用户的需求，他的表达方式越来越口语化，越来越偏向于自然语言处理方式，之前俞先生也提过，用户会说某某字，往掉某某偏旁，再加上某某偏旁是甚么，这样解决不好。第二个，即使是用户的需求非常的明确，比如今天上午提到的“日全食”，在日全食发生之间，发生以后用户的需求实际上是发生的变化的。在日全食发生之前，用户是找发生的地点，日全食发生当中，用户找的是视频的直播，日全食发生以后，用户要找的是评论。所以排序和辨认是两个核心的题目。　　先来看一下排序题目我们是怎样解决，排序的题目解决方法我们主要是采用自然语言的处理方式，用户的行为实际上是告知我们他背后真实的需求是甚么，举个例子，在用户输进日全食的时候，还有很多是跟之前相干的，比如有一些用户会很精确的表达自己的需求，比如日全食发生的时间，围绕着日全食的需求，可以告知我们日全食究竟是甚么，再结适用户点击数据等用户行为数据，我们通过一些统计分析，数据发掘的方法，最后能够协助我们往了解用户的需求。用户需求辨认里面的另外两个题目是，第一，用户的表达方式多样化，他会加很多没必要要的或必要的修饰语，我们会通过分析的方式解决这个题