- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于URL 特征的网站结构信息挖掘
王晓飞11
(北京邮电大学模式识别实验室)
摘要:本章首先深入的研究了网站的结构和URL 的特征,然后制定了三元组节点的URL 层次树的构建
规则,利用建立的URL 层次树描述网站的层次结构,最后设计了根据URL 层次树对URL 进行网页分类方法。
构建URL 层次树,首先要根据网站的首页建立URL 层次树的根节点,然后利用网络爬虫,将URL 层次树添
加枝叶,最后对形成的 URL 层次树,进行噪声无用信息剪枝,形成最终的网站核心URL 层次树。利用URL
层次树进行 URL 分类的过程,首先需要建立 URL 解析器,用于规范和分解 URL;其次,利用URL 层次树和
URL 相似度公式,将待分类 URL 和已知节点URL 相似度匹配,找到所属类别,实现分类。实验证明,该方
法有效简单,分类效果准确。
关键词:URL 层次树;网站结构;URL 相似度;链接结构;URL 特征
中图分类号:TM 393 文献标志码: A
0 引言
随着互联网的快速发展、网络信息的急剧膨胀,互联网提供的信息越来越多
变成大量、广泛、动态、分散、不易管理的信息。URL 作为网络资源的唯一地
址标识,具有很多有效的特征,例如:时序特征、正交特征、长度特征等。利用
URL 特征不仅可以重构网站的层次结构关系,优化网站结构,合理组织网站信
息关系,而且可以快速鉴别网页的类别,提高搜索引擎、推荐系统的运行效率,
有效的更新各类别的网页。
一个网站一般包含三种结构类型的网页:首页式、列表式和正文式。这三种
结构的网页功能各自不同,处理的方法也不同,当我们需要对一个网站进行信息
挖掘时,往往需要针对不同的类别进行分析。本文通过URL 特征构建网站的层
次结构树,不仅能够帮助用户分析网站的主题层次,而且能够自动识别URL 网
页在网站的所属类别。这种方法既能避免人工分类所带来的时间、人力耗费,又
能弥补单纯基于向量空间模型分类准确性过低的缺欠。
1 相关工作
根据文献 1 所说:Web 网站表现为一个图,它的页面是图的节点,节点和节
点之间的弧,表现为页面之间的一种关联。要做的工作就是从这些关联中去抽取
[1]
出相应的层次结构,也就是从一个图的关系中抽取出一棵树的层次关系 。通过
对大量的文献阅读,发现目前网站的层次结构抽取方法都类似文献 1 总结的过
程:对网站的拓扑结构进行分析,提取关键节点和关键链接,形成简约的层次结
构分类树[2][3][4] 。这样的方法通过逐个扫描具有源代码的Web 网站每个页面,虽
然最终能够获取到网站的层次结构树,但是最后形成的层次结构树无法用于页面
的区分,一些方法单纯的分析URL 链接字符串,也无法获取网站的主题信息。
本文采用三元组构建 URL 层次树,用于映射网站的层次结构。构建的 URL
层次树不仅能够自动构建网站的链接结构,描述网站的主题层次信息,而且能够
用于URL 页面的类别识别。
2 网站结构特征研究
2.1 网站的结构研究
网站的结构指的是网站中页面之间存在的层次关系,按性质可以分为物理结
构和链接结构,这两种结构具有既有区别又紧密联系。网站结构主要有以下几点
关键的作用:
(1)网站结构可以影响网站内部页面的重要性:网站结构在决定网站内部页
面的重要性方面,起到非常关键的作用,比如合理的内部链接策略就可以对重要
页面进行突出、推荐等操作;
(2 )网站结构是衡量网站用户体验好坏的重要指标:清晰的网站结构可以帮
助用户快速获取所需的信息;
(3 )合理的网站结构可以引导搜索引擎抓取更多有价值的页面;
通过对网站结构的分析,可以获取到网站的层次体系,例如栏目的划分、内
容的关系、主题层次的结构等,利用这些信息可以优化网站结构,改善用户体验,
提高网站对搜索引擎的友好性。
2.1.1 网站的物理结构
网站物理结构,又称为网站的目录结构,就是指网站的实际目录结构,网站
[5]
文件服务器上的实际物理存储方式 。网站物理结构,一般分为网站扁平结构和
网站树形结构。
文档评论(0)