- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SEWM2005中文Web信息检索评测 曹勇刚 曹羽中 任 务 使用CWT100G测试数据(约570万个中文网页),完成以下两个任务: 主题提取 对于一个特定主题发现一组关键资源,要求在前十个结果中寻找尽可能多的不同站点 主页/指定页面查询 返回最符合用户特定查询的那个网页,此网页在结果排序中越靠前越好 系统设计 以开源工具Lucene/Nutch为基础进行扩展 索 引:使用Lucene的API,是倒排索引,但引入了Field的概念,索引时将网页划分为url, title, content, anchor等不同的field,这样可以进行有针对性的匹配及排序优化。 存储结构:使用Nutch基于二进制文件的webdb来存储关键资源,包括:网页文本,超链,anchor等 中文分词:使用我们自己开发的中文分词系统BUAASEISEG 相关排序算法 把document划分为url,title,入链anchor,content等field,检索时按field分别匹配,在任意一个field中匹配上了,就算匹配成功。对每个field的匹配情况分别计算similarity得分(TF*IDF*Norm),最后把所有field的匹配得分相加。 对不同的field赋予不同的得分权重:url:4.0 anchor:2.0 title:1.5 content:1.0 为防止恶意的anchor及title,限制两者的最大长度,将超过长度的字符忽略。 相关排序算法(续1) 增加文档长度规格化。长文档通常会有高的TF值,检索时匹配上的概率也更高,这样不利于短文档。可根据文档长度(文档所含token个数)计算规格化因子,抑制长文档的得分。 计算时区分field: 对于content:DocLengthNorm=1.0 / Math.sqrt(numTokens) 对于anchor: DocLengthNorm=1.0/Math.log(Math.E+numTokens) 对于url:DocLengthNorm=1.0f / numTokens SimScore=SimScore*DocLengthNorm 相关排序算法(续2) 链接分析:只考虑入链的数目,不考虑入链的质量。 PR=Math.log(Math.E + backlinkNum); 最终得分=SimScore*PR 中文分词系统与Nutch的集成 Nutch对中文仅进行单字切分,需扩充中文分词功能 基于JavaCC重写Nutch的词法分析器,以可置换,易扩充的方式在Nutch中引入繁简转换、智能中文分词等中文处理功能 可灵活使用各类中文分词算法/系统,只需实现一个统一的JAVA接口ISpliter即可。除了我们自己的BUAASEISEG中文分词器外,我们还集成过计算所开源版的ICTCLAS 中文分词系统与Nutch的集成(续) Word-segmentation Create Word segmentation system that Can handle large scale data(90G, ICTCLAS fail on this) Can recognize more new words (adaptive to domains) Can do disambiguation based on context Favor on Information Retrieval and Feature selection Word-segmentation: BUAASEISEG Word-segmentation cont. Why longer For precision! “前沿培训网报名须知” should be 前沿 培训 网 报名 须知 ? Or 前沿培训网 报名须知 ? If choose later,can direct hit targets (only two right pages) otherwise ,you may be buried in 4,060 results of Google. How about fuzzy search with shorter phrase? Hard work, less achievement ! If you search for “北京”,which be first? 北京大学?北京烤鸭?北京市政府?Or only Beijing related pages: introduction, map, news? WANT TO BE BURIED? Return too much useles
您可能关注的文档
- office的介绍与应用.ppt
- SLAX - 小而美的Linux LiveCD.ppt
- Word综合应用.ppt
- S7-200可编程控制器编程PLC 课程组.ppt
- OCR综合文字识别技术.ppt
- p区重要非金属化合物的性质.ppt
- P5-36 表5-23.PPT
- PCDM及其在中国实施的有关问题.ppt
- OPERATIONS RESEARCH 管理运筹学.ppt
- Modal Verb 情态动词.ppt
- 2-红河州建筑施工安全生产标准化工地复核评分表(2022年修改版).docx
- 6.锡通项目2018年下半年工作会汇报材料(2018.7.9).docx
- 2018道路工程知识点汇总(新版).docx
- 附件3:月度生产例会安全汇报资料-站台门项目部.docx
- 附件2:广东建工集团2018年度科技成果汇总表.DOC
- 马武停车区、三汇停车区停车位管理系统,0#台账缺量.doc
- 攀成钢委办发〔2015〕19号(党风廉政建设责任考核与追究办法).doc
- 1-红河州建筑工程质量管理标准化复核评分表(2022年修改版).docx
- 中交第三公路工程局第四工程分公司项目经济合同结算管理办法(修订).doc
- 厂站安全操作规程汇编.doc
文档评论(0)