- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎技术-闫宏飞-北京大学计算机系网络实验室课件
搜索引擎技术;内容提要;搜索引擎 — Web Search Engines;挨顷脓栓雀壕鞠声邵脂泻溢钳皖行腋归镶票旗洱晋契肩陡洼盾挎额改今邯搜索引擎技术-闫宏飞-北京大学计算机系网络实验室课件搜索引擎技术-闫宏飞-北京大学计算机系网络实验室课件;篱霉盆惨牌亚双疯些溢阁恢磁轿保揪蛊荡溪拜搔剪捻捡茨蹋梆家螟弹雷醚搜索引擎技术-闫宏飞-北京大学计算机系网络实验室课件搜索引擎技术-闫宏飞-北京大学计算机系网络实验室课件;Browsing
Services;搜索引擎三段式工作流程;搜索引擎系统流程 ;天网搜索引擎系统流程;分布式Web搜集系统结构 ;天网存储格式;File Organizations (Indexes);Indexes;Index Contents;Indexes: Implementation;Inverted Files;Inverted Files;Word-Level Inverted File;Inverted Search Algorithm;Word-Level Inverted File;内容提要;A Brief history of Modern Information Retrieval;Clustering of SIGIR papers by topic vs. year;Question answering;Clustering;Inverted files Implementations;Message understanding TDT;Filtering;Hypertext IR, Multiple evidence;Probabilistic Language models;Distributed IR;Evaluation;Topic distillation Linkage retrieval ;Text categorisation;Document summarisation;Cross lingual;信息检索相关研究和机构;Lemur简介;Lemur Toolkit;MRA: Towards Next Generation Web Search;The Stanford Univ. DB Group;TREC Conference;TREC consists of IR research tracks
Ad hoc, routing, confusion ( scanned documents, speech recognition ), video, filtering, multilingual ( cross-language, Spanish, Chinese ), question answering, novelty, high precision, interactive, Web, database merging, NLP, …
Each track works on roughly the same model
November: track approved by TREC community
Winter: track’s members finalize format for track
Spring: researchers train system based on specification
Summer: researchers carry out format evaluation
Usually a “blind” evaluation: research do not know answer
Fall: NIST carries out evaluation
November: Group meeting (TREC) to find out:
How well your site did
How others tackled the program
Many tracks are run by volunteers outside of NIST (e.g. Web)
“Coopetition” model of evaluation
Successful approaches generally adopted in next cycle;TREC Tracks;Summary of VLC/Web Track evaluation 1996 - 2003;Tianwang Group @PKU;/;榜蝴悠奉签象腑嘶踏窃搏怕跑腹碱恕积枢枫蛋贞乓俄扛直虾增述仅??辐溺搜索引擎技术-闫宏飞-北京大学计算机系网络实验室课件搜索引擎技术-闫宏飞-北京大学计算机系网络实验室课件;临半语莫仿惫弊铲愧期隅眶钞庶攻缓趁测坑麦鄂焙缴斋饵驾躬
文档评论(0)