- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索技术在电子商务中的应用-尚亚上海国际贸易有限公司
东 华 大 学
工程硕士学位论文开题报告书
学 号: G04087
姓 名: 徐 图
工程领域: 电子与通信工程
企业导师: 薛博文 总工
学校导师: 李德敏 导师
开题日期: 2006年11月18日
填表日期: 2006 年 11 月 3 日
工程项目名称 搜索技术在电子商务中的应用 选题背景(为撰写论文而参加的工程项目的名称、来源、总经费、合作单位和工程硕士生在该项目中承担的任务、地点的简介):
1、工程项目名称:搜索技术在电子商务中的应用
2、来源:北京彤彩空间视觉装饰材料有限公司门户网站采用先进的系统架构和搜索核心,具有强大的系统稳定性和搜索效率,保证用户搜索结果的正确性、实时性和高效性实现网站的站内容搜索”q”锚文本/a文本2,设查询项t在文本1,锚文本,文本2,出现的次数为n(t),则w(p, q)=1+n(t)。文本1和文本2的长度经过试验设为50字节。构造矩阵W,如果有网页i-j ,Wi,j=w(i, j),否则Wi,j=0,H值设为1,Z为W的转置矩阵,迭代执行下面3个的操作:
A=WH
H=ZA
规范化A,H
3)ARC算法的目标是找到前15个最重要的网页,只需要A/H的前15个值相对大小保持稳定即可,不需要A/H整个收敛,这样2中迭代次数很小就能满足,[10]中指出迭代5次就可以,所以ARC算法有很高的计算效率,开销主要是在扩展根集上。
4.2.5 SALSA算法
PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页之间的加强关系。实际应用中,用户大多数情况下是向前浏览网页,但是很多时候也会回退浏览网页。基于上述直觉知识,R. Lempel和S. Moran提出了SALSA(Stochastic Approach for Link-Structure Analysis)算法,考虑了用户回退浏览网页的情况,保留了PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想,取消了Authoritive和Hub之间的相互加强关系。
具体算法如下:
1)和HITS算法的第一步一样,得到根集并且扩展为网页集合T,并除去孤立节点;
2)从集合T构造无向图
这就定义了2条链,Authority链和Hub链。
3)定义2条马尔可夫链的变化矩阵,也是随机矩阵,分别是Hub矩阵H,Authority矩阵A;
4)求出矩阵H,A的主特征向量,就是对应的马尔可夫链的静态分布;
5)A中值大的对应的网页就是所要找的重要网页。
SALSA算法没有HITS中相互加强的迭代过程,计算量远小于HITS。SALSA算法只考虑直接相邻的网页对自身A/H的影响,而HITS是计算整个网页集合T对自身AH的影响。
实际应用中,SALSA在扩展根集时忽略了很多无关的链接,比如:
1)同一站点内的链接,因为这些链接大多只起导航作用;
2)CGI脚本链接;
3)广告和赞助商链接。
试验结果表明,对于单主题查询java,SALSA有比HITS更精确的结果,对于多主题查询abortion,HITS的结果集中于主题的某个方面,而SALSA算法的结果覆盖了多个方面,也就是说,对于TKC现象,SALSA算法比HITS算法有更高的健壮性。
4.2.6 PHITS算法
D. Cohn和H. Chang提出了计算Hub和Authority的统计算法PHITS(Probabilistic analogue of the HITS)。他们提出了一个概率模型,在这个模型里面一个潜在的因子或者主题z影响了文档d到文档c的一个链接,他们进一步假定,给定因子z,文档c的条件分布P(c|z)存在,并且给定文档d,因子z的条件分布P(z|d)也存在。根据这些条件分布,提出了一个可能性函数L,M是对应的连结矩阵。
PHITS算法使用Dempster等提出的EM算法分配未知的条件概率使得L最大化,也就是最好的解释了网页之间的链接关系。算法要求因子z的数目事先给定。Allan Borodin指出,PHITS中使用的EM算法可能会收敛于局部的最大化,而不是真正的全局最大化。D. Cohn和T. Hofmann还提出了结合文档内容和超链接的概率模型。
上述链接分析算法可以用来提高搜索引擎的查询效果,可以发现WWW上的重要的社区,可以分析某个网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。 基于链接分析
您可能关注的文档
- 感谢您支持CircuitScribe-DF创客社区.PDF
- 戏剧性情境.PPT
- 慈重属夏瞄馈强惠夏墓贯-Shodhganga.PDF
- 慢性心衰-365心血管网.PPT
- 懂老师教师成长档案袋系统软件使用手册V10-无锡尚蠡科技有限.DOC
- 成本转嫁的同时还转嫁了什么.PDF
- 成层自重弹性粘弹性半空间内膨胀源引起的地表形变和-地震学报.PDF
- 成语教学与学生人格养成.DOC
- 成都城绿化养护技术规程-四川质量技术监督局.DOC
- 成都华西都报记者从崇州检察院了解到-成都铁路学校.DOC
- 2025江浙沪居民睡眠健康小调研报告.pdf
- 毕业论文的开题报告范文.docx
- 团委活动方案(拓展).docx
- 汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代.pdf
- 小核酸行业深度:技术平台和适应症不断验证,迎来销售和临床密集兑现期-华福证券-2025.3.31-65页.docx
- 医药生物行业医疗AI专题报告二多组学篇AI技术驱动精准诊断实现重要突破-25031440页.docx
- CXO行业系列报告三寒冬已过行业需求逐步回暖-25031430页.docx
- 全国租赁市场报告2025年3月_可搜索.pdf
- 玩具行业“情绪经济”专题:创新玩法+IP赋能,重新定义玩具-华鑫证券-2025.docx
- 医疗保健行业PCAB抑制剂药物深度报告抑酸药物市场空间广阔PCAB抑制剂大有可为-25.pdf
文档评论(0)