- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
向量空间模型向量空间模型(VectorSpaceModel,VSM)是康奈尔大学Salton等人上世纪70年代提出并倡导,原型系统SMART*term独立性假设:term在文档中的出现是独立、互不影响的。查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度。文档-标引项矩阵(Doc-TermMatrix)n篇文档,m个标引项构成的矩阵Am*n,每列可以看成每篇文档的向量表示,同时,每行也可以可以看成标引项的向量表示。一个例子查询q:(2006,1,世界杯,2)文档d1:(2006,1,世界杯,3,德国,1,举行,1)文档d2:(2002,1,世界杯,2,韩国,1,日本,1,举行,1)一个例子(续)查询和文档进行向量的相似度计算:采用内积:文档d1与q的内积:1*1+3*2=7文档d2与q的内积:2*2=4夹角余弦:文档d1与q的夹角余弦:文档d2与q的夹角余弦:JZSearch:SearchEngine全文精准搜索引擎内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索,可以与数据库无缝融合。文本索引速度10MB/s;搜索速度在毫秒级别JZSearch示例常用搜索语法:ANDORNOT位置搜索语法:NEAR数值型搜索:RANG,MIN,MAX前缀搜索语法:PREFIX精准匹配语法:PRECISION公司名址库搜索引擎示例//Sample:“[FIELD]content[PREF]解放军//Sample:“[FIELD]content[PREC]ab123//Sample:[FIELD]title[AND]解放军某部发生数百人感染甲流疫情//Sample:[FIELD]content[AND]甲型H1N1流感[FILED]datetime[RANG]2009-1-12010-12-31[FIELD]companyname[NEAR]名址中心10业务应用:我想在快递业务上做推广==[FIELD]busiaddress[AND]北京[FIELD]industry[OR]快递速递物流运输[FIELD]industry[NOT]货运精准搜索JZSearch精准搜索,行业搜索、地址搜索、文档搜索、少数民族语言搜索;特色:更精、更准、更专业精:精细化的数据源,精细化的搜索对象;准:准确,符合需求;专业:融入专业知识与专家经验;LJSearch精准搜索报告纲要网络精准搜索关键技术网络智能挖掘关键技术相关应用新语言特征的发现新特征词识别结果示例文档关键词自动识别与标示分词系统版本结果示例1那么,在实际上,IR可以用于哪些应用呢?从国家层面的需求来说,IR广泛地用于。。。。。从企业层面的需求来看,IR广泛地用于搜索、推荐、挖掘类应用。不同规模检索关注的问题。个人:不同文档的分析,CPU资源共享。企业级:权限。Web:分布式。*Who’stalking张华平,北理工计算机语言信息处理研究所副所长,副教授,研究生导师,研究方向:自然语言处理、信息检索、信息安全。获得2011年钱伟长中文信息处理科学技术奖一等奖,中科院院长奖,中科院计算所所长特别奖,专著2部,专利3项,国内外论文20余篇。经历:2000-2005年在中科院计算所硕博连读,获博士学位,研制汉语分词系统ICTCLAS(目前用户数超过10万家),博士期间参与新颖性监测研究,参加TREC2004NoveltyTrack在国际14家团队中,综合排名第一;2006-2009年,创办中科计算技术转移中心网络智能事业部(30余人),先后担任了863、242、中国证监会舆情系统、工信部网络监管、中国移动云计算搜索等重大项目。2009年底至今,担任研究所副所长,目前承担了科技部及安全部重大项目。Whatheisdoing报告纲要网络精准搜索关键技术网络智能挖掘关键技术相关应用“庆祝日本地震”真相挖掘中国邮政集团邮址精准搜索四维图新POI智能提取从利比亚救援说起…更多的搜索引擎信息检索技术的应用搜索推荐挖掘IR技术情报处理内容安全舆情分析信息检索学科:一门有关信息获取、存储、组织和访问的学科应用:针对用户需求返回满足该需求信息的一门应用从信息规模上分类个人信息检索:个人相关信息的组织、整理、搜索等。桌
原创力文档


文档评论(0)