基于相关性的网络词句搜索.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WWWords 基于相关性的网络词句搜索 小组成员:丁树凯 王璞 彭悦凯 江岭 报告提纲 动机和最初的想法 系统功能 系统实现 系统完成情况 目前系统一些结果展示 结果分析 动机和最初的想法 一个很有可能为真的假设:从某种程度上说,相比于百科全书和报刊杂志,网络更贴近普通人,更可能客观地反应社会。 当一个人对某个词不熟悉时,他如何通过网络搜索对这个词有大概的把握。 一个对Web感兴趣的人,希望了解网络上词的最惯常用法,以及词与词之间的关系。 一个对社会感兴趣的人,希望通过分析网络上词的惯常用法,了解当下的社会。 动机和最初的想法 我们决定从相关词的搜索入手解决上述问题。 非形式地,key1的相关词是指那些经常与key1同时出现的词。 词与词通过“相关”这个关系形成了一个图,和任何图一样,有很多有意思的性质可以分析。 系统功能 输入:一个词key 输出1:一些与key相关的词; 输出2:对每个与key相关的词key’,找出几句key和key’同时出现的,有代表性的句子;(我们希望这些句子能阐释key与key’的关系) 输出3:key的近义词或相对的词. 系统实现 底层:丁树凯跟彭老师要到15万切好词的网页(约3G),用这些网页建立Page Set,建立倒排表. 找相关词:如果key’与key同时出现在一个文本块中的次数为n,则key与key’的相关度为n*idf(key’)/freq(key). 找有代表性的句子:先找出包含key和key’的句子,这些句子中某个词w出现的总次数为m,则这个词的权值为m*idf(w). 句子的权值则为: 句子包含的词的权值之和/len^2.(len为句子的长度) 系统实现 找近义词或相对词:对相关词图的应用 一个猜想:key’就是key的近义词或相对的词. 系统完成情况 上述功能已经完成,但对结果还不满意,程序运行也太慢,搜索一个词需一分钟以上才能出现结果.需要进一步做些优化. 目前系统一些结果展示 结果分析 寻找相关词和代表句,对有的词结果较好,有的词结果比较差. 对于那些结果较差的词,是客观是就是如此,只是出乎我们的意料? 还是因为由于这些词出现在大量广告和垃圾网页中而破坏了结果的客观性? 还是因为我们的网页集太小(15万,而且有大量重复)从而失真? 或者是因为我们的算法有问题呢? 找“近义词/相对词”的结果基本上不是我们想象的那样. 结果分析 可能的改进:滤除垃圾网页,以免其混淆视听. 改进算法,使找相关词和代表句时权重的计算更符合实际. * * key Key1 key2 keyn Key’ *

文档评论(0)

ranfand + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档