网络资源的名字特征及其在资源组织中的应用研究精选.doc

网络资源的名字特征及其在资源组织中的应用研究精选.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络资源的名字特征及其在资源组织中的应用研究精选

学位论文 题目: 网络资源的名字特征及其在资源组织中的应用研究 姓 名: d 学 号: d 院 系: 信息科学技术学院 d 专 业: 计算机系统结构 d 研究方向: 搜索引擎与网络信息挖掘d 导师姓名: 教授 d 二零零八年 五月 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘 要 本文中,网络资源指在含义上相对独立且完整的非网页类互联网信息资源,通常由一到多个文件按照一定的目录结构组织,常见于FTP服务器和P2P系统的节点中。它们广泛分布在互联网上,是网络用户所关心的重要对象。同时,这些网络资源不仅数量巨大,而且发布、传播和共享都比较自由,呈现出“混乱”和“无序”的特点。 广泛收集并重新组织这类网络资源,是许多应用中的一项根本需求。在这项工作中,资源名称是最基本的依据;人们一方面需要根据名称来理解得到的资源,另一方面也要通过对资源命名来标识资源。本文首先考察各类网络资源的命名状况,研究其中蕴含的用户命名行为一般规律;进而研究了如何从资源名中切分出语义片段的方法;并考察了名字信息在资源自动分类中的作用,分析分类性能的影响因素等问题。注意到网络上存在着许多以目录树的形式组织得相当好的资源集合,本文研究了依据目录树信息进行资源整合的效率问题,并针对这类资源整合的任务,设计了一个可扩展性好的资源增量存储与组织方案。作为对上述研究的应用,实现了一个支持海量网络资源存储组织的库藏系统,并为相关领域的研究提供数据和系统平台。 本文主要贡献包括: 考察网络资源命名的无序状况,分析用户对资源命名行为的一般规律。通过考察总体与各类别的名字长度、字符构成、片段频度分布、文件后缀对资源类别的互信息、语义种类及位序关系等方面,分析资源的名字无序混乱表象及所蕴含的规律。例如从字符类型熵来看,资源名是用户表达各种资源相关信息的渠道,而其中娱乐类资源名的字符类型熵大于工作学习类的资源名,这体现了用户对娱乐内容的融入感较强,倾向于参与修改名字来反映自己的意见和评价。从符号的出现上看,用户倾向于将多种意思通过显式或隐式分隔信息浓缩在简短的名字中。这些是本文后续名字切分、资源分类等工作的基础。 基于错误驱动转换学习思想和字符类型突变分割假设,提出一种能对资源名按照语义信息切分、且不依赖于词典的方法。这一研究也适用于其他具有多种文字符号混杂、浓缩表达多种语义类型特点的文本环境。该方法优点是能充分利用上下文特征学习,且不要求大规模训练数据。例如给800个训练样本,得到的语义片段的切分精度为81%、召回率为83%。所得的切分结果有助于从混乱的原始命名状态中获取对资源描述有用的信息。 提出一种利用资源及其成员的名字所产生的特征进行资源自动分类的方法,研究了特征分布、概率估算、样本数量等因素对分类性能的影响。发现大量低频特征(例如只在一个资源中出现过)对分类正确率的贡献在于帮助合理估算未观测到的特征的概率;因此也得出在低频特征占优、且使用Simple Good-Turing平滑策略下无需进行特征选择的推论。在使用所有特征情况下,总体分类正确率可达80%。还应用该方法实现了一个资源半自动分类工具,在人工给定资源粒度条件下,进行资源分类的时间是基准时间的45%-50%。 针对原始质量较好的资源集合,提出一种利用原始组织知识的目录归并模型整合资源,刻画粗分类和精细检查两阶段工作模式并评估模型效率。粗分类阶段有精度损失,但完成任务的时间为基准做法的1/2a(a为批量处理的资源数,a≥1);精细检查阶段在第一阶段基础上进行,能保证精度无损,且完成任务的时间约为基准做法的1/2。 持续从互联网收集、并运用目录归并模式高效低代价地构建一个容量为7.5TB的海量网络资源库藏系统。通过分类体系和文件目录的映射,并在服务器和磁盘两级用模块化思想设计存储、组织功能,该系统能很好地应对增量式存储、组织和服务需求。系统还基于Ontology思想从互联网上为热点门类的资源扩展相关描述信息。 关键词:网络资源,命名分析,组织,自动分类,目录归并 On the Name Characteristics of Digital Resources and Their Applications in Resource Organization Chong Chen(Computer Science and Technolo

文档评论(0)

gz2018gz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档