- 1、本文档共81页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七讲 XML文档检索
第七讲XML文档检索 回顾(Review) 结构数据查询 基于内容的图像检索 实体-联系模型 E-R图 矩形:实体集 椭圆:属性 菱形:实体集间联系 段:将属性与实体集相连或将实体集与联系相连 关系代数操作 基本运算 一元运算 选择、投影 多元运算 笛卡儿积、并、集合差 其它运算 集合交、连接、外连接 自然连接 SQL功能 数据查询操作 基本结构 select A1 , A2 , … , An from r1 , r2 , … , rm where P ? ∏A1 , A2 , … , An(?p(r1 ? r2 ? … ? rm)) 示例 给出所有学生的姓名 select SNAME from S Select 子句 目标列形式 可以为列名,* ,算术表达式,聚集函数 “*”:表示“所有的属性” 给出所有学生的信息 select * from S 带?,?, ?, ?的算术表达式 给出所有学生的姓名及出生日期 select SNAME,2008 - AGE from S From 子句 说明 from子句列出查询的对象表 当目标列取自多个表时,在不混淆的情况下可以不用显式指明来自哪个关系 示例 找出选修课程的学生姓名、课程名、成绩 select SNAME , CNAME, GRADE from S , C, SC where S.S# = SC.S# and C.C# = SC.C# Where 子句 语法成分 比较运算符:?、? ?、?、??、=、 ? ? 逻辑运算符:and,or,not between:判断表达式的值是否在某范围内 示例 列出工资在1500~1800之间的老师姓名 select PNAME from Faculty where SAL between 500 and 800 复杂查询 示例 -找出平均成绩最高学生的学号 select SNO from SC group by SNO having avg(GRADE) = all (select avg(GRADE) from SC group by SNO) -找出平均成绩最低学生的学号和姓名 基于内容的图像检索 Content-Based Image Retrieval CBIR 图像有丰富的内容 内容可由不同的特征所表达 颜色、纹理等 减轻用户负担 每个图像可以由其特征来描述 特征 基本特征 颜色 纹理 形状 … 体系结构 本讲内容 背景 体系结构 检索模式 系统评测 待解决问题 背景 应用广泛 自1998年由W3C推出以来,XML已经成为网络上数据交换的标准。广泛应用于电子商务、数字图书馆、内容管理以及中间件等。 数量多,增幅大 越来越多的数据以XML文档的形式发布,如IEEE INEX数据集、Wikipedia、Library of Congress Documents、SIGMOD和DBLP的文献数据等。 背景 需求 面对海量的XML文档,我们自然希望从中检索出非常有用的信息。 实现 IR(信息检索) DB(数据库) ??? IR vs. XML文档检索 IR 处理对象:无结构文本文档 核心问题:针对用户需求,有效预测哪些文档与需求相关,哪些不相关 检索模式:关键词检索 XML文档检索 处理对象:半结构化数据 核心问题:相关与否? 检索模式:关键词检索? IR vs. XML文档检索 IR技术不适合直接来检索XML文档 问题本质:处理对象不同 无结构文本文档 目前基本上依靠关键词来表达用户查询请求。关键词的语义表达能力有限。 半结构化XML文档 即包含内容信息,又包含结构信息。检索内容信息可以利用IR技术。结构信息从语法角度限定内容信息的语义。因此,需要利用结构信息。而结构信息超出了IR的处理范围。 IR vs. XML文档检索 DB vs. XML文档检索 DB 处理对象:有严格模式定义的数据(结构化数据) 核心问题:针对用户需求,准确找出与需求完全匹配的信息 检索模式:基于模式信息的精确查询 SQL:Select name, price from goods where class = “TV” XML文档检索 处理对象:半结构化数据 核心问题:精确匹配? 检索模式:SQL? DB vs. XML文档检索 用DB技术来解决XML文档检索,存在以下问题: XML文档检索是模糊匹配还是精确匹配? 源于DB的检索语言(XQuery)不适合
文档评论(0)