基于链接相似性分析的web结构挖掘方法分析-analysis of web structure mining method based on link similarity analysis.docx
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于链接相似性分析的web结构挖掘方法分析-analysis of web structure mining method based on link similarity analysis
哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。 有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注 明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。作者(签字):日期:年月日哈尔滨工程大学 学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论 文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或 机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数 据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布 论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作 者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(□在授予学位后即可 □在授予学位 12 个月后 □解密后)由哈尔滨 工程大学送交有关部门进行保存、汇编等。作者(签字):导师(签字): 日期:年月日年月日摘要WEB 服务和应用近年来得到了飞速发展,其信息量呈几何级数增长,每天都有数 以百万计的网页加入到 WEB 中。它已经成为了一个涉及教育、政府、电子商务、新闻、 广告、消费信息、金融管理和许多其它信息服务的、巨大的、分布广泛、全球性的信息 服务中心。WEB 网页它们之间相互链接,盘根错节,组织成了一个类似于人类社会的 网络,结合链接相似性分析方法,将对 WEB 资源挖掘进行研究,帮助人们高效的获取 所需信息,寻找所需领域的权威信息。本文针对 WEB 结构挖掘中的四个问题进行研究:WEB 页面链接预测算法、垃圾页 面(SPAM)识别算法、WEB 结构挖掘算法以及 WEB 页面聚类算法。首先,提出了基于相似性的多路径游走链接预测算法。1)提出新的衰减因子,通 过使用新的衰减因子定义出新的相似度公式;2)改进 Rubin 算法,与新的相似度公式 相结合进行相似度计算,得出节点的相似度;3)对节点相似度排序,从而进行预测可 能性判断,得出预测结果。4)最后通过实验对算法进行了验证。其次,提出了页面互相链接相似度的概念,然后给出了一个 Spam 页面链接结构的 假设,并且提出了一种基于页面互链接相似度聚类的 Spam 页面识别算法,该算法考虑 了网页之间会出现的彼此互相连接的关系,因此更加合理;并通过实验分析,验证了所 提假设,并实验验证了算法的有效性。再次,针对 PageRank 算法其存在的“主题漂移”和偏重旧网页现象,提出了一种基 于相似度和时间反馈因子的改进 PageRank 算法。第一步,利用向量空间模型 VSM 来计 算链接文本和其指向网页之间的相似度;第二步,根据网页产生时间,设计一个时间反 馈因子,削弱旧网页的网页等级值,提高新网页的网页等级值;第三步,将相似度值和 时间反馈因子融入到 PageRank 算法计算网页等级值中,根据算法流程计算改进后网页 的 PageRank 值。最后通过实验对算法的性能进行了分析。第四,研究国内外已有的基于局部信息的启发式聚类方法研究现状,然后进行总结 分析;并详细研究基于局部信息的标签传播方法,分析该算法在迭代过程中,采用随机 策略为某个节点选择所属的簇结构时所存在的问题;随后提出了一种针对随机策略选择 簇结构问题的改进聚类方法——基于节点属性相似度的标签传播算法;最后,为了帮助 高效的发现互联网的分组信息资源,通过实验对该算法的有效性和性能进行了验证,并 将其在实际的网页聚类中进行了应用。本文最后得出结论,并对未来工作进行了展望。关键词:WEB 挖掘;相似性分析;链接预测;SPAM 页面识别;结构挖掘;聚类技术ABSTRACTIn recent years, WEB services have been rapidly developed, the information of WEB is growing exponentially, every day tens of millions of WEB pages are created. WEB pages have been involved in education, government, e-commerce, news, advertising, consumer information, financial management and many other services. These WEB pages are becoming a huge, widely distributed, global
您可能关注的文档
- 基于快速散射卷积模型射野参数优化-optimization of emission parameter based on fast scatter convolution model.docx
- 基于客运物流网络的路径-选址问题研究——以山东高速为例-research on route - location problem based on passenger transport logistics network - taking shandong high speed as an example.docx
- 基于宽频带uhf rfid标签天线的研究与设计-research and design of rfid tag antenna based on broadband uhf.docx
- 基于框架理论分析一词多义动词的意义建构——以“make”为例-analyzing the meaning construction of polysemous verbs based on frame theory - taking.docx
- 基于宽体钢箱梁的气动导纳分析-aerodynamic admittance analysis based on wide steel box girder.docx
- 基于宽带智能网体系实现vod业务的分析-analysis of vod service based on broadband intelligent network system.docx
- 基于喹啉体系的锌离子荧光化学传感器的分析-analysis of zinc ion fluorescence chemical sensor based on quinoline system.docx
- 基于扩大就业的城市化发展路径研究——以云南省为例-research on urbanization development path based on employment expansion - taking yunnan province as an example.docx
- 基于跨媒体信息和高效图像编码算法图像搜索关键技术-key technology of image searching base on cross-media information and efficient image coding algorithm.docx
- 基于扩大就业的城市化发展路径分析——以云南省为例-analysis of urbanization development path based on expanding employment - taking yunnan province as an example.docx
- 基于两步聚类和查询扩展的人名消歧方法的分析-analysis of name disambiguation method based on two-step clustering and query expansion.docx
- 基于梁柱结点转角变化的框架结构损伤检测分析-damage detection and analysis of frame structure based on the change of beam-column joint angle.docx
- 基于两阶段dea方法的我国商业银行效率分析-efficiency analysis of chinese commercial banks based on two-stage dea method.docx
- 基于两级存储的正则表达式匹配技术分析-analysis of regular expression matching technology based on two-level storage.docx
- 基于梁型结构振动的无损检测技术分析-analysis of nondestructive testing technology based on beam structure vibration.docx
- 基于两型社会理念的船舶装备全寿命周期价值风险管理分析-risk management analysis of ship equipment's life-cycle value based on two-oriented social philosophy.docx
- 基于两类非线性时间序列模型的预报分析-forecasting analysis based on two kinds of nonlinear time series models.docx
- 基于两型社会视角的企业自主创新能力评价分析-evaluation and analysis of enterprises' independent innovation ability based on two - oriented society perspective.docx
- 基于两种柔顺单元柔顺机构的动力学分析与仿真-dynamic analysis and simulation of compliant mechanism based on two compliant units.docx
- 基于量价关系的城市房地产市场分 类调控研究 —35个大中城市数据的分析-research on the regulation and control of urban real estate market by categories based on the relationship between quantity and price - analysis of data of 35 large and medium-sized cities.docx
文档评论(0)