- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关键资源的网站自动分类系统.pdf
第38卷 第 I期 哈 尔 滨 工 业 大 学 学 报 V司.〕8
2006年 1月 JOURNALOFHARBININSTITUTEOFTECHNOLOGY 220Y0o6.‘
基于关键资源的网站自动分类系统
付德宇,代成琴,仲 玮
(哈尔滨工业大学网络与信息中心,黑龙汀哈尔滨 150001,E-mail;fdy@)
摘 要:针对网站表示难题,引入关键资源的概念,对网站关键资源进行了分析,设计了一个主页优先的网
站关键资源获取方法,给出了一个改进的TF-IUF公式用于计算特征的权重,并研究了关键资源特征抽取
的方法,最后提出了墓于关键资R的网站分类系统的模型.
关键词:网站分类;关键资源;特征抽取
中图分类号:TP399 文献标识码:A 文章编号:0367一6234(2006)01一0019一。
Awebsitecategorizationsystembasedonkeyresource
FUDe-yu,DAICHENG-qin,ZHONGWei
(NetworkandInformationCenter,HarbinInstituteofTechnology,Harbin150001,China,E-mail;fdy@)
Abstract;Theconceptofkeyresourcewasproposedforwebsiterepresentation.Firstananalysisonthekey
resourceofawebsiteisgiven.ThenamethodthatacquiresthekeyresourceofawebsiteandanimprovedTF
一IDFformulaforcalculatingthefeaturearepresentedandthemethodofthefeatureextractionofthekeyre-
sourceisalsopresented.Lastly,awebsitecategorizationmodelbasedonkeyresourceisdescribed.
Keywords;websitecategorization;keyresource;featureextraction
网站分类有助于改善Web信息的查准率,以 并且提供了对网站及其内容的简介;3)关键资源
雅虎、搜狐为代表的分类目录式搜索引擎采用的 和分类目录是不同的,它更关注于主题;4)一个
是人工分类方法,这种方法效率低、更新速度慢、 关键资源可能是一个和主题相关的网站的主页、
维护成本高,很难实现对互联网上动态变化的海 一个和主题相关的子网站的主页、一个与主题高
量网站进行有效的跟踪和管理,因此有必要对网 度相关的html,pdf,doe,p。网页,一个包含很多
站进行自动分类.网站 自动分类系统的任务是在 有用链接的网页(Hub网页).
给定的网站分类体系下,根据网站的内容自动地 关键资源是一个主观但却非常重要的概念 ,
确定网站关联的类别.网站自动分类可采用文本 它反映了与主题最相关的网页的特征.网站主题
分类模型,其难点是网站的形式化表示问题. 的概括往往是非常困难的,假定某一个网站总是
I 关键资源的定义 与某一个特定的主题最相关,那么该网站肯定应
该有一个关键资源来反映该主题,在这样的前提
关键资源(KeyResource)是文本检索会议 下,将对网站特征的分析转化为对网站关键资源
(TREC)为了描述Topicdistillation任务而提出的
及其链出网页特征的分析,将对网站的表示问题
概念,这个概念用以表示一个与某一主题最相关
转化为对网站关键资源的表示问题,为此围绕网
的网页或文档.在TREC
您可能关注的文档
最近下载
- 特种连接方法及工艺课件:缝焊-.ppt VIP
- 2025年碳达峰 碳中和知识题库 .pdf VIP
- 海防知识课件.pptx VIP
- 意识形态工作规章制度.docx VIP
- TB 10301-2020 铁路工程基本作业施工安全技术规程(附条文说明).docx VIP
- 成品灰气力输送计算书.xls VIP
- 2024年初中道德与法治九年级上册(全册)知识点.pdf VIP
- 高考语文阅读理解《关联性:艺术史思考的一大纽结点》《隐忧与曲谏——清明上河图解码录》含答案.docx
- 新高考3500词汇表打印版 .pdf VIP
- 2023-2024学年北京市九年级数学上学期中分类汇编:新定义(原卷版).pdf VIP
文档评论(0)