- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
并行检索
* 主要的解决办法—翻译 方式一 将所有文档翻译成源语言,采用单语检索的方法 优点 检索结果可读 文档的翻译理论上相对准确(可以依靠上下文解决翻译中的歧义) 缺点 翻译量巨大,翻译的时间消耗较大 在多语言检索情况下,需要多个语言对之间的翻译工具 * 主要的解决办法—翻译 方式二 将查询翻译成目标语言 优点 翻译量小,相对灵活 缺点 由于查询通常很短,翻译质量难易保证 如果用户不懂目标语言,仍然需要把结果再翻译成源语言 查询翻译方法是目前CLIR中的主要方法。 * 翻译的主要做法 基于词典的方法 通过查词典(双语词典、同义词词典、统计词典等),将源语言的Term变成目标语言的Term 基于机器翻译工具的方法 通过机器翻译工具,将源语言翻译成目标语言 基于并行语料库的方法 对于一个查询,先在一个并行语料库中搜索,利用并行语料之间的对齐关系,将源语言搜索结果映射成目标语言 * 基于词典的方法 * 基于MT的方法 * 基于并行语料库的方法 * CLIR中两个主要技术难点 一词多译 一个词或者片断有多个可能的译文。一般通过上下文进行排歧 未定义词(Out Of Vocabulary,OOV)问题 词典里找不到这个词 一般通过并行语料获取及对齐等方法来解决 * 多语言检索的实现 separate-retrieval-then-merging 将查询翻译成各种语言,分别进行单语检索,最后将结果合并 middle-language 将查询翻译成某个中间语言,然后将中间语言查询翻译到目标语言分别进行检索,最后将结果合并 类单语言检索方法 将原始查询和翻译到每种目标语言的查询综合在一起,在所有文档库上进行单语检索 * 国际CLIR评测 TREC中CLIR评测 1997年开始设立CLIR评测,近几年取消,转入CLEF和NTCIR CLEF(CrossLanguage Evaluation Forum) 主要针对欧洲语言对之间的检索评测 NTCIR(NII-NACSIS Test Collection for IR Systems )会议 日本国立信息研究所(National Institute of Informatics)主办的信息检索测试集评测会议。主要针对英文及主要亚洲语言的检索评测 * 问答系统概念 问答系统(Question Answering,QA) 给定一个问题,从大规模文档集合中返回答案的系统 例子:谁获得2006年多哈亚运会男子体操全能冠军?杨威 比搜索引擎更进一步,不仅仅返回相关的文档,而且直接返回正确答案 * 问答系统概念 根据文档集涉及的领域,QA可以分成 Open domain QA 文档集涉及的领域非常广泛,体裁风格也不一致,是各种领域、各种风格文档的综合体。如面向整个WEB的QA Restricted Domain QA 文档集只涉及某个领域或行业(比如天气预报)、或者较固定书写风格的文档集(产品FAQ、百科全书) * QA系统的两种做法 方法一:模板匹配(Template Matching)方法 模板:[NP] 是谁? 孙中山是谁? 美国总统是谁? 一个问题提出以后,从已有的模板库中进行匹配,匹配上以后,根据模板对应的处理方法调处理过程 严格地说,此类系统不算是QA系统。如:ASKJeeves * QA系统的两种做法 方法二:先分析问题的类型,然后从可能存在答案的结果文档中抽取答案 TREC QA系统:大部分系统采用了此种类型,先通过问题类型分析模块确定问题的类型,然后通过检索返回可能的文档或者段落,最后在这些文档或段落中抽取相应类型的问题答案 * 问题类型的例子 * 问题子类型的一个例子 * 问题类型的判定 人工规则 人工总结出一些判定规则,如:who??找人 机器学习的方法 建立训练语料,通过统计学习的方法学习到统计规则 * 答案的抽取(以事实型问题为例) 命名实体的识别 人名、地名、机构名等等命名实体的识别 命名实体的评分 为命名实体打分,找出最可能的命名实体 * QA 评测 1999年开始,QA加入到TREC评测中。一致延续到今年 基于事实型的问题可以达到一定的正确度,但是其他类型的问题要解决还为时过早 第七讲 并行检索与跨语言检索 陆铭 richard.lu@shu.edu.cn mingler.ccshu.org * 内容提要 并行及分布式计算 并行检索 分布式检索 跨语言检索 问答系统 * 背景 一方面,网络上地理位置分散的异构数字化信息的规模非常大。 另一方面,尽管计算机软硬件技术发展迅速,但是对于大规模信息来说,单个CPU、单台计算机的处理能力仍然相对非常有限。 因此,需要引入多个CPU、多台计
您可能关注的文档
- 关于做好减排监测体系迎检工作的紧急通知-贵州国控企业减排监测.doc
- 关于做好少先队辅导员队伍建设的思考-共青团吉林委.ppt
- 关于做好本科生毕业论文设计工作的通知-华南农业大学动物科学学院.doc
- 关于做好毕业设计论文选题及指导教师配备的-南京林业大学教务处.doc
- 关于做好第五届我心目中的好老师-杭州师范大学钱江学院——教学.doc
- 关于开展2013年桩基深基坑及基础工程施工质量安全大检查的通知.doc
- 关于组织开展出资监管企业信息化工作调研的通知-江西国资委.doc
- 关于邀请参加温州国有企业采购项目代理机构选定的通知.doc
- 关系数据库及其应用系统开发基础知识.ppt
- 内能与热机复习知识点-大亚湾第二中学.ppt
最近下载
- 药物设计软件:Discovery Studio二次开发_(3).使用Python进行DiscoveryStudio脚本开发.docx VIP
- 扁桃体切除术手术配合.pptx VIP
- 《人工智能通识基础》全套教学课件.pptx
- 高考冲刺词组搭配汇编(四校用)5.docx VIP
- (3.7)--2.3.1立井开拓采矿学采矿学.pdf VIP
- 新课改理念下小学数学课堂教学反思.doc VIP
- 《铁路调度指挥及控制系统》课件——车站TDCS.pptx VIP
- 《铁路调度指挥及控制系统》课件——铁路局调度所TDCS.pptx VIP
- 量子信息讲座.pdf VIP
- 高考冲刺词组搭配汇编(四校用)4.docx VIP
文档评论(0)