文檔的边界信息与信息边界.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文檔的边界信息与信息边界

文档的边界信息与信息边界 张 化瑞 北京大学 计算语言学研究所 Email: hrzhang@ 一、从Google搜索引出问题 有些问题比较复杂,不容易比出高低,比如搜索结果的排序; 有些问题相对明晰,通过一定的逻辑分析,不难看出是否合理。 比如,如果提问者想了解的是“虎”,而回答者提供的几乎全是关于“猫”的信息,提问者提出质疑,答复是: 虎也是猫科,民间也有“猫”是“虎”的师傅的说法,因此,“猫”和“虎”的关系还是非常密切的,按照统一的综合多种因素的相关性排序,“猫”就排在了“虎”的前面,没有进行任何人工调整,所提供的结果是客观的。 至于背后的原因,也许有猫比虎多得多(虎已是珍稀动物,猫却正大行其道)、与人的关系友好得多(猫是宠物,虎能伤人)等诸多因素,但提问者无法确定。 不过提问者怎么也想不通:为什么问“虎”而答“猫”? 近来U盘病毒相当猖獗,作者在分析U盘病毒的传播机制时,发现AutoRun.inf是一个关键的环节,如果能把它变成一个个性化的名字,就能够防止病毒借其自动运行。 为此查找相关工具,发现一个名叫CodeFusion的软件。 搜索表达式 [CodeFusion 使用] 查出来的几乎都是关于ColdFusion的(前10个中的前9个), 搜索表达式 [CodeFusion是什么] 的结果更是如此,前10个都是关于ColdFusion的,甚至前100个中都没有关于CodeFusion的,见图(a). 搜索表达式 [what’s codefusion] 也是相差无几,见图(b). 值得注意的是该图中的提示信息“您是不是要找:what’s coldfusion”, 这说明Google很清楚用户现在查的不是coldfusion, 而且要返回关于coldfusion的结果也应该在用户点击确认之后。从这两个例子可以看到,不管中文英文,字符集的大小,都有这个问题。 那会不会是因为有人用CodeFusion制作破解补丁而被列为不受欢迎的软件呢? CodeFusion只是一个补丁制作工具,完全不具备恶意软件的特征,没有任何理由封杀。 就像菜刀在罪犯手里也可能成为凶器,并不能因此就不让人们使用菜刀。 事实上,单独搜索 [codefusion] 出来的都是和CodeFusion相关的,而且数以万计,这也说明Google并没有屏蔽codefusion,因此前面的结果就更能凸显出Google搜索模型的问题所在。 Google的解释 在Google提供的帮助“我的搜索结果: 搜索字词不在网页上” : 有时,Google 会将不包含您搜索的文字或词组的网页列入您的搜索结果。即使进行词组搜索也可能会出现这种情况。在评估网页的价值和相关性时,Google 不仅会考虑网页本身,还会考虑指向此页的链接的定位文字。如果指向网页的链接包含您搜索的词组,Google 可能会将此网页作为符合查询的匹配项返回。如果发生这种情况,网页的网页快照会显示这些字词仅在指向此页的链接中显示。 Google的解释 (2) 如果您关注的问题是搜索结果中的某网页并未包含您搜索的短语,建议您与链接该网页的网站管理员联系。… 如果链接网站的管理员受理了您的请求,下次抓取后我们的搜索结果会反映这些更改。 因为统一,更有问题 这说明Google认为其这样做是合理的,是为了更准确更有效地评估网页的价值和相关性。 但我们看到的情况好像不是这样。 正是由于Google统一用算法来排序而不进行单独调整,一旦出现典型性的反例,才更能说明其搜索模型中的带有普遍性的问题。 二、从信息定义划分边界 Shannon定义 在Shannon(1948)的通信模型中,更多的关心的是编码/解码的技术层面,是关于信息的形式(语形)的,committer和receiver可以理解为“发报人/发报机”和“收报机/收报人”构成的“人 和/或 机”的人机系统,完成“消息”和“信号”之间的转换工作(编码/解码),凡是和语义相关的部分都是由其中的“人”来完成的。 *Shannon, C. A Mathematical Theory of Communication. Bell System Technical Journal, 27(1948), 379--423, 623--656. Jakobson定义 在Jakobson(1960)的通信模型中的sender和receiver已经是“发送者”和“接收者”,形成了潜在的“作者”和“读者”模式。 * Jakobson, R. Linguistics and Poetics, in Style in Language, MIT Press, 1960, 350-377. 谢清俊 定义 谢清俊、谢瀛春则更明确地把传播过程中的“创作端”和“接收端”作为定

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档