搜索引擎和eCommerce(续).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎和eCommerce(续)

搜索引擎和eCommerce(续) 参考Jaime Carbonell教授的讲义 建一个搜索引擎 (1) 得到一个文档集合,C 要一个(例如从北京大学网络实验室),买一个(例如从Inktomi) 自己从Web上爬取一个 或者,收集本单位网站上的内容 爬取,或者直接得到 建一个搜索引擎 (2) 对这个文档集合建立索引 基于收集的文档集合C建立一个词典 找到所有的词,可以考虑取词根 过滤掉停用词 也可以考虑产生一些短语作为词项, 记Σ为词项的集合 对Σ中的每一个wi 计算并存储其 log2IDF 找到所有wi 在其中出现的文档 Dj 存储文档的标识 ID(Dj) 和 wi 在其中的位置 建一个搜索引擎 (3) 查询Q和文档的匹配 过滤掉不在 Σ中的词 计算 ArgmaxkDj in C[sim(Q, Dj] 用点乘或者cosine相似度 用倒排索引结构 搜索引擎Business (1) 所提供的服务 定位(最)有用的网页 两步曲:“给出查询,得到结果列表 然后基于综述点击察看 搜索引擎Business (2) 收入模型 追求流量 = 广告等 Lycos, Google, AltaVista, Excite, Metacrawler... 安装intranet搜索,收费;或者为其他网站提供搜索服务 Inktomi, Verity, Google, Condor... 提升父公司的声誉和价值 Infoseek = Disney 搜索引擎Business (3) 混杂模型 通用定位器 (人,地点,...) Metacrawler/GO2Net, Lycos... 基于内容的层次式信息浏览 Yahoo clear first, later Lycos others... 结合新闻,股票行情,聊天室,.... Yahoo clear leader, now many others... 新技术 (1) 更好的搜索引擎技术 元搜索 (将多个搜索引擎的结果组合起来) e.g. Metacrawler, Vivisimo 将IR和人工分类结合 Yahoo首先这么做,后来大多数其他的目录门户都跟随 新技术 (2) Better Search Technologies 按照入向链接的密度对网站排序 e.g. Google, Authorities = 具有很高的“入度”的网页 Hubs = 具有很高的“出度”的网页 Rank = Argmaxkdj in Drel[Σilogi (inlinki(dj))ai ] 将IR和翻译结合 e.g. AltaVista/Babblefish, Google, … 新技术 (3) Better Mousetraps in the Drawing Board 真正基于Web的跨语言IR 功能强,更准确的查询:收费 (MMR, probabilistic IR search, quality filters,...) WebSearch + Summarization Fusion 多媒体搜索:收费 自动生成类似于Yahoo的目录层次 搜索部分潜藏的Web(hidden-web) (distributed IR) 新技术 (4) Better Mousetraps in the Drawing Board 更全面的Web Crawlers AltaVista indexes 30% of web Google indexes 2.0 Billion URLs 50% of web 其他的要少很多... 生成对提问的答案(不仅是提问对已有库存的“命中”)[AskJ does not work well] FAQ’s, helpdesks, networking to humans, ... 反过来:针对搜索对网站的优化 目标 让潜在的用户能容易地发现你的电子商务网站 让你的网站在搜索引擎中排在竞争对手的前面 让你的客户一旦访问你的网站,呆在上面的时间尽量长。 Optimizing WebSites for Searching (2) 内容策略 1. 按照你的原意初步创建一个网站 2. 从你的网站和主要竞争者的网站内容上生成一个词语表(可以考虑按字母序) e.g. ...amazing antelope antiques auction ... catalog cars ... Optimizing WebSites for Searching (3) Content Strategy 3. 挑出那些和你的业务不直接相干的词 e.g. auction antiques catalog... 4. 用同义词或者高度相关的词项对它们进行扩展(查询扩展的对

文档评论(0)

5201314118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065201001000004

1亿VIP精品文档

相关文档