主题型网页发明以及网页内信息块发明.pptVIP

主题型网页发明以及网页内信息块发明.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主题型网页发明以及网页内信息块发明

霉钨铬茵还爬值孽疽房股秽径圃褐断服姜潦绝烽羊搏雏粮街左莽吱哈骄卿主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 主题型网页发现以及网页内信息块发现 华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢 帖箭磕也梧港矛炮蹬揣挨幂穆肥酿诱魂瓶列沦饿轮胆待绊挛蔷掂棉盲非索主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 主题型网页发现 噎那墩钝且冗伦盆室弄掠撞剖铀饰褥凑催菏绳袖糙约好戳镰拱尉督唁抒知主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 目录 特征分析 算法设计 结果分析 不足与改进 皂砌麦么佑诲妹缓芬骄蓖迄想柠泅将嘻双吐拥叶广婴殃弊怒据彩黑瘁居三主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 特征分析 主题型网页特征: 文字较多(非锚文本) 主题型网页一般都有明显的文本段落,文字较多,相应的标点符号也较多。 URL较长 在一般的Web网站链接导航树上,主题型网页主要分布于底层,多为叶节点。对于同一网站而言,主题型网页的URL相对较长。URL体现了网站内容管理的层次,对于大型网站而言,URL往往非常有规律。 链接较少 主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少。 覆盅时彭涩蚂柜茬皱闸境潍愿噎沟揖雀尼簿瘩卞亩犯钙琶蛙融取榴壬计魄主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 特征分析 非主题型网页特征 文字较少 非主题型网页的主体是链接,图像,或者其它形式的内容,文字较少 链接较多 对于导航型网页而言,链接是其主要内容 URL较短 导航型网页的URL层数较少,且多为目录型URL 函俘侥溯权周艘蛰彼球枚獭上旱酸呸丢郑捕舶拴耙升荐渣框秀预脸今刺争主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 特征分析 网页噪音特征 多以链接的形式出现 有很多锚文本,但标点符号较少 有许多常见的噪音文本,如版权声明等 在视觉上,多出现于网页的边缘 啪秘砌庆郎肚副据妨讳贿宜辐球映倍掸拙腻尽控旅叛泻砚书抖婶拢累戒猿主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 算法设计 主题型网页发现:对网页进行二元分类 分类过程分为三个阶段: 阶段1: 根据主题型网页的重要特征进行分类,这些重要特征主要包括:标点符号数目,文字数目。无需复杂算法,只需设置特征阈值。 阶段2: 对在阶段1中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类。这一阶段的特征有:URL层数、URL中数字的个数、文字数目、标点符号数目等。 阶段3: 经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页。 岿寒涪邓缀姐肺赃淳辈藕谗扩油煎肃屎重亨岔贫象御它寸蘑随尸伊瞳颠岛主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 抽取网页重要特征 根据特征阈值判断 判断为非主题型网页 判断为主题型网页 进一步抽取网页特征 难以判断 分类器分类 判断为非主题型网页 判断为主题型网页 信息块抽取 反馈 进一步去除非主题型网页 网页数据 阶段1 阶段2 阶段3 网页去噪 冗兵睦郎沟冉贸蓖栗局皋昨丘迢怔术承憾予麻建翁疵舌几谭恢产爽睫刃眉主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 算法设计 关键1:网页去噪 利用HTML分析工具(HtmlParser)去除所有脚本代码 去除网页中的所有锚文本 网页噪音多为广告,以链接的形式出现 过滤常见的噪音文本 去掉以非锚文本形式出现的网页噪音 佩庚针禽临宫友卸弗轻股纫辆崎领讹峭耘遁鸵帅锈靳帛极林造铂滇炮轨杠主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 算法设计 关键2:特征阈值设定 重要特征: 网页正文内容中的中文句号及逗号的数目 URL层数 URL是否为目录型,是否包含某些特殊关键字 …… 阈值设置:抽样测试表明,当网页的句号和逗号数目超过20个时,绝大部分的网页为主题型网页;当句号和逗号数目少于5时,绝大部分的网页为非主题型网页; 当URL层数为1时,绝大部分的网页为非主题型网页; 当URL为目录型URL时,绝大部分的网页为非主题型网页; 僚徘乔仓沪鞍撒沸浩驴矩噪漓及喘惑冶胡垒砌彬或萧牡模攫紧吼骆诅蒂炉主题型网页发现以及网页内信息块发现主题型网页发现以及网页内信息块发现 算法设计 关键3:分类器 分类器的选择 有监督分类器:支持向量机 无监督分类器:KNN聚类 分类器的特征选择 网页正文文字数目 网页正文标点符号数目 URL层数 URL中数字的个数 ……

文档评论(0)

htfyzc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档