- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于答案结点的XML文档模糊检索.pdf
第39卷第4期 郑州大学学报(理 学版) Vo1.39 NO.4
2007年 12月 J.of Zhengzhou Univ.(Nat.Sci.Ed.) Dec.2007
基于答案结点的XML文档模糊检索
江腾蛟, 万常选, 刘喜平
(江西财经大学信息管理学院数据与知识工程江西省高校重点实验室 南昌330013)
摘要:针对普通用户发出的面向XMI 文档的自然语言模糊查询,分析了模糊内容和结构检索(VCAS)的影响因
素,充分利用预设答案结点的逻辑意义完整性,结合模糊抽取的查询表达式给出了如何找到模糊内容检索的最佳
查找粒度.在此基础上,设计了VCAS检索的结果相关性排序模型,最后通过实验从不同角度对模型进行了验证.
关键词:XMI 检索;答案结点;模糊内容和结构;排序
中图分类号:TP 391.3;G 354.4 文章编号:1671—6841(2007)04--O098—04
0 引言
由于普通用户发出的自然语言查询的模糊性,存在着检索粒度过小(信息不满足用户需求)或粒度过大
(浪费用户时间)的情况,本文充分利用答案结点(Answer Nodes,AN)的逻辑意义完整性,在查询表达式的
抽取时进行适当的结构放松以增加检索的查全率;同时由于信息检索(IR—style)不同于数据检索(DB-style)
及XML文档集的异构性,要求检索结果必须按照模糊内容和结构(Vague Content and Structure, VCAS)
相似性计算分值进行降序排序,把最相关的结果呈现在最前面给用户[1-83.
1 背景知识
首先,将XML文档建模为一棵标记树,每个元素或属
性表示为一个结点,元素一子元素或元素~属性之间的关
系用相应结点间的实线边来表示,叶子结点及属性与其值
之间用虚线连接,如图1所示.
其次,给出两个假设前提: / nut
font l
1)预设答案结点.本文假设文档作者在设计文档时就
已给出检索该文档的答案结点,或专家根据领域知识和模 black XML XM
式信息预设了文档的答案结点.图 1中用椭圆框标出. rank index
2)预设结点语义权重 图1中结点右边的数字表示
的是对应结点的语义权重.假设文档作者在设计文档时给 图1 XML文档片断1
出文档的结点语义权重,或专家根据领域知识和模式信息 Fig.1 XMI document tree’s fragment 1
给出了结点语义权重.
最后,给出两个由“XPath+关键词”形式表示的查询实例:
Q1://article//body//section//item[.一 clustering,classmcation, ];
Q2://article//body[.//section=”classification,clustering”~//titler.一”school,planet”].
其中,Q1为单路径的多关键词查询,Q2为小枝模式的多关键词查询.
收稿日期:2007—04—28
基金项目:江西省教育厅科技项目,编号赣教技字.
作者简介:江腾蛟(1976--),女,讲师,硕士,主要从事XML数据管理、信息检索研究,Email:tj_jiang@163.corn;J/~讯作者:刘喜平(1 981一),
男,助教,硕士,主要从事XML数据管理研究,E-mail:lewislxp@gmail.tom.
第4期 江腾蛟等:基于答案结点的XML文档模糊检索 99
2 模糊检索排序模型
对于小枝模式(twig pattern)~:询:tag [keyword 3//…//
您可能关注的文档
- 向量自回归法在生猪价格预测中的应用.pdf
- 回顾与前瞻:自清洁纺织品的研发.pdf
- 基于横向各向同性BISQ模型的弹性波高阶交错网格有限差分数值模拟.pdf
- 基于气相气谱-质谱的代谢组学方法研究四氯化碳致小鼠急性肝损伤.pdf
- 基于水晶球软件的公允价值估价模板设计.pdf
- 基于油脂的工程化食品蛋黄酱的研究与开发.pdf
- 基于法珀标准具的激光稳频方法理论研究.pdf
- 基于活动地块边界带的测震学参数C值对丽江地震的预测应用.pdf
- 基于流程的一体化网络运维管理支撑平台.pdf
- 基于流量统计特征的端口扫描检测算法.pdf
- 2022年度山东省烟台市栖霞栖霞镇南三里店中学高三语文上学期期末试卷含解析.pdf
- 2022年二年级数学上册10知识与拓展6教材说明和教学意见新人教版.pdf
- 2022年二年级班主任工作计划6篇.pdf
- 2022年福建省福州市私立超德某中学高二数学理月考试题含解析.pdf
- 《红领巾国学达人》挑战赛考试题库及答案.pdf
- 2024年安全员C证模拟考试1000题(附答案).pdf
- 铝及其化合物(解析版)-2025年高考化学一轮复习讲义(新教材新高考).pdf
- 难溶电解质的溶解平衡(原卷版)-2025年高考化学一轮复习讲义(新教材新高考).pdf
- 热重分析计算(解析版)-2025年高考化学一轮复习讲义(新教材新高考).pdf
- 滑块木板模型(解析版)-动量守恒的十种模型解读和针对性训练.pdf
文档评论(0)