基于关键资源的网站自动分类系统.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关键资源的网站自动分类系统.pdf

第38卷 第 I期 哈 尔 滨 工 业 大 学 学 报 V司.〕8 2006年 1月 JOURNALOFHARBININSTITUTEOFTECHNOLOGY 220Y0o6.‘ 基于关键资源的网站自动分类系统 付德宇,代成琴,仲 玮 (哈尔滨工业大学网络与信息中心,黑龙汀哈尔滨 150001,E-mail;fdy@) 摘 要:针对网站表示难题,引入关键资源的概念,对网站关键资源进行了分析,设计了一个主页优先的网 站关键资源获取方法,给出了一个改进的TF-IUF公式用于计算特征的权重,并研究了关键资源特征抽取 的方法,最后提出了墓于关键资R的网站分类系统的模型. 关键词:网站分类;关键资源;特征抽取 中图分类号:TP399 文献标识码:A 文章编号:0367一6234(2006)01一0019一。 Awebsitecategorizationsystembasedonkeyresource FUDe-yu,DAICHENG-qin,ZHONGWei (NetworkandInformationCenter,HarbinInstituteofTechnology,Harbin150001,China,E-mail;fdy@) Abstract;Theconceptofkeyresourcewasproposedforwebsiterepresentation.Firstananalysisonthekey resourceofawebsiteisgiven.ThenamethodthatacquiresthekeyresourceofawebsiteandanimprovedTF 一IDFformulaforcalculatingthefeaturearepresentedandthemethodofthefeatureextractionofthekeyre- sourceisalsopresented.Lastly,awebsitecategorizationmodelbasedonkeyresourceisdescribed. Keywords;websitecategorization;keyresource;featureextraction 网站分类有助于改善Web信息的查准率,以 并且提供了对网站及其内容的简介;3)关键资源 雅虎、搜狐为代表的分类目录式搜索引擎采用的 和分类目录是不同的,它更关注于主题;4)一个 是人工分类方法,这种方法效率低、更新速度慢、 关键资源可能是一个和主题相关的网站的主页、 维护成本高,很难实现对互联网上动态变化的海 一个和主题相关的子网站的主页、一个与主题高 量网站进行有效的跟踪和管理,因此有必要对网 度相关的html,pdf,doe,p。网页,一个包含很多 站进行自动分类.网站 自动分类系统的任务是在 有用链接的网页(Hub网页). 给定的网站分类体系下,根据网站的内容自动地 关键资源是一个主观但却非常重要的概念 , 确定网站关联的类别.网站自动分类可采用文本 它反映了与主题最相关的网页的特征.网站主题 分类模型,其难点是网站的形式化表示问题. 的概括往往是非常困难的,假定某一个网站总是 I 关键资源的定义 与某一个特定的主题最相关,那么该网站肯定应 该有一个关键资源来反映该主题,在这样的前提 关键资源(KeyResource)是文本检索会议 下,将对网站特征的分析转化为对网站关键资源 (TREC)为了描述Topicdistillation任务而提出的 及其链出网页特征的分析,将对网站的表示问题 概念,这个概念用以表示一个与某一主题最相关 转化为对网站关键资源的表示问题,为此围绕网 的网页或文档.在TREC

文档评论(0)

aiwendang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档