- 1、本文档共169页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web数据挖掘__12复习创新
* * * * * * * * Implementation issues Web信息采集当前研究方向 基于整个Web的信息采集(Universal Web Crawling) 增量式Web信息采集 (Incremental Web Crawling ) 基于主题的Web信息采集(Focused Web Crawling ) 基于用户个性化的Web信息采集(Customized Web Crawling ) 基于Agent的信息采集(Agent Based Web Crawling ) 迁移的信息采集(Relocatable Web Crawling ) 基于元搜索的信息采集(Metasearch Web Crawling) 实际的采集器往往是几种采集技术的结合 * Chapter 10: Link Analysis Road map * Introduction Social network analysis PageRank HITS Summary PageRank * Sergey Brin 和 Lawrence Page于1998年提出PageRank算法 Google 采用的一种链接分析方法 仅通过权威性对网页排序,这样可以有校防止人为加工的页面欺骗搜索引擎。即由Web间的超链关系发现重要页面 应用于整个网络而不是围绕一个query结果主页的局部临近主页 PageRank * 根据社会关系网中的等级权威值,网页i的重要程度(它的PageRank)由指向它的其他网页的PageRank之和决定 由于一个网页可能指向许多其他的网页,那么PageRank值将被所有他所指向的网页所共享 PageRank 按照以上的用户行为模型,每个网页可能被访问到的次数越多就越重要 可能被访问的次数就定义为网页的权值,PageRank值 公式如下: Wj代表第j个网页的权值,li,j只取0,1的值,代表从网页i到网页j是否存在连接,ni代表网页i有多少个连向其他网页的链接,d代表“随机冲浪”中沿着链接访问网页的平均次数 * Advantages of PageRank * Fighting spam. A page is important if the pages pointing to it are important. Since it is not easy for Web page owner to add in-links into his/her page from other important pages, it is thus not easy to influence PageRank. PageRank is a global measure and is query independent. PageRank values of all the pages are computed and saved off-line rather than at the query time. Criticism: Query-independence. It could not distinguish between pages that are authoritative in general and pages that are authoritative on the query topic. HITS算法的提出 * 基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。 例如“Microsoft” 和 “Netscape”都是浏览器的权威主页,但并不互指 权威网页很少具有显式的描述 比如Google主页不会明确给出WEB搜索引擎之类的描述信息 PageRank算法中对于向外链接的权值贡献是平均的,Hits算法考虑了不同链接的重要性 HITS * HITS stands for Hypertext Induced Topic Search. Unlike PageRank which is a static ranking algorithm, HITS is search query dependent. When the user issues a search query, HITS first expands the list of relevant pages returned by a search engine and then produces two rankings of the expanded set of pages, authority ranking and hub ranking. 网页的权威性 Authority * 权威性是公认的提供重要度,
您可能关注的文档
最近下载
- 2024年高空作业考试题库附答案5套(完整版).DOC
- 印刷类原辅料进料检验标准.pdf
- 部编人教版四年级上册《道德与法治》全册教学反思.pdf VIP
- 江苏省南通市2023-2024学年高一上学期语文期中考试试卷(含答案).pdf VIP
- 国家开放大学《中国近现代史纲要》社会实践报告.docx VIP
- 领读经典-现代文学(1)(山东大学)中国大学MOOC慕课 章节测验期末考试答案.docx
- 《幼儿挑食、偏食行为的原因分析及对策》开题报告(含提纲)5800字.doc
- 2022年贵州省高职(专科)分类招生中职生文化综合考试试卷(语数英、含答案).pdf
- 小学语文优秀教学案例.docx VIP
- 冬季血压早达标远离心脑血管疾病-高血压慢性病培训讲座课件PPT.pptx
文档评论(0)