一种提取面向搜索的网上文件资源描述词语的方法.pdfVIP

一种提取面向搜索的网上文件资源描述词语的方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种提取面向搜索的网上文件资源描述词语的方法.pdf

江西师范大学学报(自然科学版) 第 32 卷第2 期 Vol. 32 No.2 ]OURNALOF 丑ANGXI NORMAL UNIVERSπY(NA吼JRAL 缸IENCE) 2008 年4 月 Apr.2008 文章编号:1胁5862(2鹏}倪。13硝 一种提取面向搜索的网上文件资源描述词语的方法 郭化楠, 雷凯, 李晓明 (北京大学信息科学与技术学院,北京 1鹏71) 摘要:网上文件资源的共享与下载是当前网络用户的主要行为之一,而通过某些查询词进行搜索则是用 户发现可下载资源的-个基本于段.该文提出了~种提取与筛选网上文件资源描述词语的方法,旨在为 每一个文件资源找出一个关键词集合,使其尽可能地符合用户查询词集合. 关键词:信息提取;元数据提取;文件资源的描述 中图分类号:1P 391.4 文献标识码:A 根据中国互联网信息中心(CNNIC) 所作的调查,在中国,35% 的网站提供文件资源的共享与下载功 能[1] ,约 113 的网民通过互联网进行文件资源的上传下载[2] 这说明互联网已经事实上成为人们交换数字资 源最大的集散地.这种现象给我们提出了许多新的挑战,包括效率问题、效果问题,以及版权问题,等等.本 文的内容属于查询效果问题的范畴.它来源于如下观察. 不难注意到,那些提供文件资源共享与下载的网站通常都提供查询功能,允许用户用某些关键词作 为查询词去引导系统返回他所需要的文件资源.用户怎么知道该用哪些关键词?另一方面,现在网上资 源十分丰富,作为提供资源共享与下载的系统,通常已经不可能靠人工对所收集的资源进行整理编目,而是 靠某种自动的方法产生与资源相关的若干关键词,指望用户会用它们来查找资源. 用 R 表示文件资源, Wu(R)表示用户可能用到的查询词集合, W.(R)表示系统针对 R 产生的关键词集 合.于是我们的问题就变为:已知根据 W, 系统能高效地找到R, 如何生成凤使它尽量接近W • u 不难理解,由于用户在此是一个一般的概念, W 实际上是不可准确得知的,我们只能通过对一些数 据的统计分析进行估计.本文的工作就是基于一个真实的P2P 网络文件共享系统(Maze) ,针对当文件资源在 网上拥有大量相同镜像时,通过对文件名的分词统计,为网上文件资源生成适合描述资源内容的关键词集 合 W.. 由于归P 系统中的文件都是用户自己创建的(文件名都是用户起的,大量镜像形成了一种集体效果), 于是我们可以认为如此生成的风能比较接近吭,实验结果也支持了这种认识. 本文下面的内容是,第二节介绍了相关领域中提取关键词的技术方法以及P2P 系统中的特性,第三节 介绍了 Maze 系统的环境与特点,第四节详细阐述了一种得到关键词集合矶的方法,第五节介绍如何评测 如此得到的关键词集合的思路,并为本系统得到的集合 W. 进行了评测,最后我们给出结论和沿着本文思路 未来可能的工作内容. 1 相关工作 在传统的工作中,对资源提取描述词的工作属于信息提取(lnfonnation Ex田成ion) 的范畴,更具体的属于 文本挖掘的内容,通常是指从一段文本中抽取指定的一类信息并将其形成结构化的数据.然而对于网络上 大量的文件资源,与传统工作所面对的文本资源是有差异的,这种差异主要是文件资源中的文本信息较少, 内容信息又比较难以提取,信息结构不规则等.因此传统文本挖掘和信息提取的方法,并不完全适用于互联 网上文件资源的信息提取. 在网页搜索引擎中,也有关键词的概念,但是这种关键词的提取方法也不能被直接使用在文件资源的 收稿日期:2007-12-01 基金项目:国家自然科学基金(邸731削和国家支撑计划(立脂B鸣H02AlO)资助项目. 作者简介:郭化楠(1982斗,男,北京市人,工程师,硕士,主要从事P2P 系统与信息挖掘

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档