基于泛中文域名的网页关键词超链接实现与应用.doc

基于泛中文域名的网页关键词超链接实现与应用.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于泛中文域名的网页关键词超链接功能探讨与实现 Introduction and Implementation of WebPage Content Keyword HyperLinks Based on Wildcard Domain Name 杜义华 (中国科学院计算机网络信息中心 管理信息服务中心 100864) 摘要: 本文介绍一种基于泛中文域名的关键词超链接实现方法。主要是通过构建完整的关键词表、利用泛域名解析与虚拟中文域名的重定向技术和简单实用的添加链接算法,实现网页全文中所有专业术语、通用词均能点击和按关键词+域名方式直接访问到相应站点、专题、网页或搜索页的充分互联,解决网页中关键词链接不全面、导向地址不准确、不便记忆或无法及时更新、链接方式不理想等技术问题。 关键词:泛域名 中文虚拟域名 关键词超链接 1 前言 超链接是互联网的重要特点,在频道栏目、标签(tags)、相关文章或热点推荐等线性结构导航与检索基础上,网页全文的关键词超链接能让各知识点多维网状互联,门户、行业或专门网站中全面完整的关键词链接标识有助于将信息立体式展示和为用户提供快捷的百科全书式阅读功能[1]。 网站中知识点和所涉及关键词可能很多,但由于信息整理量大、信息组织不能一步到位、一些关键词的导向页面不确定、超链接添加算法不完备等,目前只有少数网站的部分网页进行有部分关键词链接,如/c/2006-03-24/22048522691s.shtml 中部分词汇链至相关话题、人物专栏或搜索页(/n?k=),且链接点不全面、链接地址不便调整,尚没有网站系统能提供全面和专业的关键词标引服务。 泛域名技术能支持无限子域名,中文关键词作子域名能更直观简洁,多编码关键词参照表便于灵活扩展。引入和结合泛中文域名解析思路,设计构建全面关键词表和简洁添加超链接算法,能有效解决目前关键词链接中存在问题。开发实现通用网页关键词库管理平台和关键词链接添加插件,能推广适用于各类网站网页和信息发布平台。 2 关键词库构建 2.1 关键词定义 页面中关键词为直接从文章中抽取的自然语言(自由词),可能是规范术语、专用语或别名与简称,具有一词多义、多词一义和词义不清现象。关键词表可参考但不限于《汉语主题词表》、《医学主题词表》、《中医药主题词表》等公认主题词,可能根据业务需要还有大量机构、企业或人物名,所有词条均能对应到某主题或知识点。 以医疗保健类为例,关键词可包括中草药名、中成药名、方药名、西药名、疾病名、症状名、名医名院、食物名、与生活保健相关的各要素、机构组织、国家法规等。其中有别名现象如恶性肿瘤与癌症、胃十二指肠溃疡与消化性溃疡,有简称现象如中华人民共和国卫生部与卫生部、乙型肝炎与乙肝,此外,为保证语义完整和划词准确,一些惯用法词句即使没有对定专题介绍,也可采用上位主题词作关键词进行保护和参照,如儿茶酚胺与儿茶酚胺类、鼻炎与急性鼻炎、六味地黄与六味地黄丸、六味地黄口服液。 2.2 关键词导向地址 各关键词均对应到一个知识点,链接导向地址可以是一个网站地址、子站点或频道栏目专题首页、具体页面或相关搜索页面。如世界卫生组织可直接导向WHO网站、民族医药可链接至民族医药频道、禽流感可链接禽流感专题、非典防治方案可链接到方案的全文页。 网站或课件中拥有大量知识信息素材,为加强对热点或知识点的展示,在按常规频道栏目或章节分类同时,可进一步挖掘内容间关系加工重组出大量专题。建设过程中,一些关键词对应知识点地址无法确定,或因信息或栏目专题的调整导致某些页面地址(URL)变化,常存在键词条设置不全、无法指向正确页面或已添加链接网页需要重新生成等问题。只有关键词本身是唯一的、确定的、不变的,因此我们采用泛域名的映射解析技术,将每一个关键词作为二级域名。 正如域名与IP地址关系一样,这种直接采用中文关键词的域名方式,相当于URL助记符,便于记忆,同时能保证链接稳定有效和导出设置灵活,当URL地址变化或指向需要调整时,只需修改对照表的相应记录。 2.3 关键词参照表 关键词表用于生成关键词词典文件和泛域名解析的重定向。其中关键词列具唯一索引,参照词用于解决多词一义现象。关键词、Big5码、IDN编码等列具有索引以提高解析速度。部分列数据冗余以避免嵌套查询或反复编码解码操作。在关键词表管理平台中,实现对Big5码、IDN编码列和若有参照词时其链接地址列的自动维护。关键词表可同时具有优先级别、广告链接等属性。 关键词 链接地址 参照词 Big5码 IDN编码 中华人民共 和国卫生部 / 中華人民共 和國衛生部 fiQ4Mp3EqsChE72E98Gko7CgbRkq7D 卫生部 / 中华人民共 和国卫生部 衛生部 rlR479Ey7S 食疗 食療 pqYp66E 三七 /i

文档评论(0)

ktj823 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档