基于链接相似性分析的web结构挖掘方法分析-analysis of web structure mining method based on link similarity analysis.docx

下载文档 降价啦

2
0
约11.45万字
约 116页
2018-05-20 发布于上海
举报
版权申诉
保障服务

基于链接相似性分析的web结构挖掘方法分析-analysis of web structure mining method based on link similarity analysis.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于链接相似性分析的web结构挖掘方法分析-analysis of web structure mining method based on link similarity analysis

哈尔滨工程大学学位论文原创性声明本人郑重声明：本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者（签字）：日期：年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定，即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索，可采用影印、缩印或扫描等复制手段保存和汇编本学位论文，可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文（□在授予学位后即可 □在授予学位 12 个月后 □解密后）由哈尔滨工程大学送交有关部门进行保存、汇编等。作者（签字）：导师（签字）：日期：年月日年月日摘要WEB 服务和应用近年来得到了飞速发展，其信息量呈几何级数增长，每天都有数以百万计的网页加入到 WEB 中。它已经成为了一个涉及教育、政府、电子商务、新闻、广告、消费信息、金融管理和许多其它信息服务的、巨大的、分布广泛、全球性的信息服务中心。WEB 网页它们之间相互链接，盘根错节，组织成了一个类似于人类社会的网络，结合链接相似性分析方法，将对 WEB 资源挖掘进行研究，帮助人们高效的获取所需信息，寻找所需领域的权威信息。本文针对 WEB 结构挖掘中的四个问题进行研究：WEB 页面链接预测算法、垃圾页面（SPAM）识别算法、WEB 结构挖掘算法以及 WEB 页面聚类算法。首先，提出了基于相似性的多路径游走链接预测算法。1）提出新的衰减因子，通过使用新的衰减因子定义出新的相似度公式；2）改进 Rubin 算法，与新的相似度公式相结合进行相似度计算，得出节点的相似度；3）对节点相似度排序，从而进行预测可能性判断，得出预测结果。4）最后通过实验对算法进行了验证。其次，提出了页面互相链接相似度的概念，然后给出了一个 Spam 页面链接结构的假设，并且提出了一种基于页面互链接相似度聚类的 Spam 页面识别算法，该算法考虑了网页之间会出现的彼此互相连接的关系，因此更加合理；并通过实验分析，验证了所提假设，并实验验证了算法的有效性。再次，针对 PageRank 算法其存在的“主题漂移”和偏重旧网页现象，提出了一种基于相似度和时间反馈因子的改进 PageRank 算法。第一步，利用向量空间模型 VSM 来计算链接文本和其指向网页之间的相似度；第二步，根据网页产生时间，设计一个时间反馈因子，削弱旧网页的网页等级值，提高新网页的网页等级值；第三步，将相似度值和时间反馈因子融入到 PageRank 算法计算网页等级值中，根据算法流程计算改进后网页的 PageRank 值。最后通过实验对算法的性能进行了分析。第四，研究国内外已有的基于局部信息的启发式聚类方法研究现状，然后进行总结分析；并详细研究基于局部信息的标签传播方法，分析该算法在迭代过程中，采用随机策略为某个节点选择所属的簇结构时所存在的问题；随后提出了一种针对随机策略选择簇结构问题的改进聚类方法——基于节点属性相似度的标签传播算法；最后，为了帮助高效的发现互联网的分组信息资源，通过实验对该算法的有效性和性能进行了验证，并将其在实际的网页聚类中进行了应用。本文最后得出结论，并对未来工作进行了展望。关键词：WEB 挖掘；相似性分析；链接预测；SPAM 页面识别；结构挖掘；聚类技术ABSTRACTIn recent years, WEB services have been rapidly developed, the information of WEB is growing exponentially, every day tens of millions of WEB pages are created. WEB pages have been involved in education, government, e-commerce, news, advertising, consumer information, financial management and many other services. These WEB pages are becoming a huge, widely distributed, global