超文本结构化转换算法的研究与实现-中国科技论文在线.PDF

超文本结构化转换算法的研究与实现-中国科技论文在线.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
( ) 10009825200112 02 016706 ○c 2001 Journal of Softw are 软 件 学 报 V o l. 12, N o. 2 超文本结构化转换算法的研究与实现 郑庆华,  由渊霞,  袁文斌 (西安交通大学 计算机科学与工程系, 陕西 西安 710049) : @ . . E m ail qhzheng xjtu edu cn : . . . h ttp www xjtu edu cn 摘要: 超文本是一种非结构化的文档. 它虽然不支持跨页查询和全文检索, 但却是 Internet 上信息组织与存储的 重要方式. 提出了一种将超文本转换为结构化数据库的算法. 分析了超文本结构化转换的需求, 运用图论分析并 描述了超文本的转换模型与实现算法. 该算法在鲁迅数字图书馆系统中得到了实际应用和验证. 关键词: 数字图书馆; 超文本; 结构化; 数据库 中图法分类号: T P 311   文献标识码: A 超文本是采用H TM L 语言编写或制作的非结构化或半结构化文档, 它与H T T P 和U RL 一起 成为WWW 中的三大关键技术. 超文本由于具有平台无关、支持基于内容的联想式超链接信息组 [ 1 ] 织方式以及多媒体化的人机界面, 因此成为 In ternet 上信息组织、存储与发布的主要方式之一 . 但是, 由于超文本是一种非结构化文档, 一般仅适合于信息的浏览和导航. 文献[2 ]指出了超文本系 统在支持信息检索方面存在的 3 点不足: ( 1) 严重的迷路问题; (2) 无法支持对信息的直接定位; (3) 查找信息的效率太低. 目前, ISP ( in ternet service p rovider) 站点建设的主题已经从接入服务转 向内容服务, 如何有效地管理门类繁多的超文本信息, 并能以快捷、有效和有价值的服务吸引用户, 这是一个十分重要的问题. 文献[3, 4 ]提出了解决此类问题的若干途径, 如, 建立丰富的导航、浏览 图、主航线, 提供查询机制等等. 查询当然是最有效的方法, 但不仅要查询内容, 而且还要查询信息 的组织结构. 目前, 实现超文本或主页信息的跨页查询, 一般有两种解决途径. ( 1) 采用WWW 服务器自带 的索引服务器, 如W indow s N T Server 平台下与W eb Server IIS 4. 0 相配套的M icro soft Index . 这种方法只能实现字符串匹配查询, 而无法实现按主题查询, 而且检索效率低下, 同时受平 Server [ 3 ] ( ) 台的限制, 其可移植性较差 . 2 把超文本和数据库相结合, 利用数据库强大的数据组织、管理、 查询能力来提高整个超文本系统的性能. 不过, 这方面的研究大多局限于通过数据库查询, 将查询 结果动态地填充到主页框架以解决主页和数据库间的连接问题. 但这样对超文本的表现能力, 包括 超链接、多媒体、动态特性和整体效果等产生了很大的限制. 本文提出了一种解决上述问题的新思路: 通过将非结构化的超文本文件集自动转换成结构化 ( ) 的数据库, 并对数据库中的超文本记录的特征字段进行

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档