- 1、本文档共113页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二讲检索模型1
* 概率模型——12. 优缺点 优点 理论上讲,文档按照其与目标集合的相关概率 降序排列 缺点 需要最初将文档分为相关和不相关的集合 所有权重都是二值的,模型中仍然假设索引项之间是相互独立的 其他模型 结构化文本检索模型 信息浏览模型 * 其他模型——1. 结构化文本检索模型→概念 有时候,用户希望能够对文档中的某些结构组元中包含的信息进行检索,例如,对出现在章节标题的词进行检索。那么就需要一种模型,把文档内容与文档的结构结合起来,为用户提供信息检索的能力。这种模型就被称为结构化文本检索模型。 在检索任务中,传统的结构化文本检索模型没有采用相关性的思想,它只是从各个结构组元中匹配用户的查询项。从这个意义上看,过去的结构化文档检索模型是一个数据检索模型,但是,检索系统能够搜索出那些部分匹配查询条件的文档,在这种情况下,这种匹配是近似的,并且某些排序也是使用这种近似的结构 * 其他模型——结构化文本检索模型→概念 结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全 使用“匹配点”来表示文本与用户查询相匹配的词串位置 使用“区域”表示文本的块 使用“节点”表示文档的结构化组元 这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义的逻辑属性 * 其他模型——结构化文本检索模型 基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域,并用链表连接起来 因为有多种方法将文本分为非重叠的区域,所以,对于同一个文档,会产生多个链表 这些链表清晰的记录了文档的数据结构 在相同链表中的文本区域没有重叠,而不同链表中的文本区域可能会重叠 * 其他模型——2. 结构化文本检索模型→非重叠链表模型 为允许对索引项和文本区域进行搜索,要为每个预定义的链表建立一个索引 在索引中每个结构组元作为索引中的一个项目 因为针对每个索引项目,其索引的文本区域是不重叠的,所以可以提交的查询是简单的 选择一个包含给定词的区域 选择一个不包含在给定区域的区域 选择一个不被包含于任何其他区域的区域 Chapter Section Paragraph * 其他模型——结构化文本检索模型 该模型是一种允许在相同文档上独立定义分层索引结构的模型,每个索引结构是一个严格的层次结构,其中每个结构组元称为节点,每个节点与一个文本区域相关,两个不同的层次结构可能涉及到两个重叠的文本区域 针对不同层次结构的用户查询,所汇集的结果是由来自其中一个层次结构的节点组成,因此,一个应答结果是不能由来自两个不同层次结构的节点组成 这样做的目的是使得查询处理的速度快 * 其他模型——3. 结构化文本检索模型→邻近节点模型 Information 22 45 127 7892 …… Chapter Section Paragraph * 其他模型——4. 信息浏览模型→平坦浏览 该模型的思想假设用户浏览一个具有平坦组织的文档空间,文档集可以被描述为平面上的点或是链表中的元素 用户在这些文档上到处浏览,以寻找有关信息,在反馈过程中,用户通过在邻近文档中的浏览,查找出相关的资料,找出一些感兴趣的关键词。这些关键词将被输入到原始的查询中,以试图提供更好的、新的查询 同样,用户也可以以平面方式,浏览单一的文档。例如使用滚动条来浏览一个Web页面。 该模型的不足 在给定的一个页面或屏幕上,可能没有任何用户所处上下文情况的指示 平坦模型缺乏层次性的视图、用户的浏览行为很容易迷航 * 其他模型——5. 信息浏览模型→结构向导浏览 为了对浏览的行为提供更好的支持,文档应该被组织成为如目录那样的结构,目录是类的层次结构,对文档按照主题来分类和组织 在这样的情况下,用户执行一个具有结构向导类型的浏览。同样的思想仍然可以应用到一个单独的文档上。一个好的界面能够以变焦的方式上下查看这些层次,辅助用户的浏览过程,并保持上下文线索 除了用于浏览任务导向的结构外,界面也可以提供一些其他的导航工具,如提供浏览历史,指示最近访问的节点,这对于浏览结构庞大的文档集是相当有用的 * 其他模型——6. 信息浏览模型→超文本浏览 传统的文本书写相关的概念是顺序的 写作的顺序通常被认为是阅读的顺序,读者也不期待通过随机的阅读某段文本而全部理解作者的思想 无论是纸制或计算机中存在的文本,全部都是按顺序编排的,这样提供文档主要是为了满足顺序阅读的需要。而且顺序阅读也是大多数用户的阅读习惯,特别是上下文联系紧密的文档。 * 其他模型——信息浏览模型→超文本浏览 虽然由于制作的缘故,文档中的文字是顺序编排的,但用户不一定按编排顺序进行阅读,文本的顺序存放和管理方式与人的阅读过程中的联想思维方式及相应的活动是不相适应的。我们需要
文档评论(0)