应用潜在语意索引提取信息.PDFVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用潜在语意索引提取信息

第22卷 第1期 ( ) V ol. 22 N o. 1 天 津 师 范 大 学 学 报 自然科学版 2002年3月        ( )         Journal of T ianjin N orm al U niversity N atural Science Edition M ar. 2002 ( ) 文章编号: 2001 应用潜在语意索引提取信息 1 2 杨守捷 , 胡祥恩 ( 1. 天津师范大学物理与电子信息学院, 天津 300072; 2. 孟菲斯大学心理学系, 孟菲斯 38107, 美国) 摘要: 关键词信息提取技术效率很低, 潜在语意索引技术是对它的改进. 在分析潜在语意索引技 术的结构与原理的基础上, 探讨了利用它改进汉语信息处理及中西文信息交叉提取的可能性. 关键词: 潜在语意索引; 奇异值分解; 语义空间; 信息过滤; 信息提取 中图分类号: G202      文献标识码: A 0 引言 信息时代, 巨大的信息量从各个角落四面八方地涌出, 同时, 随着信息存储方式的丰富、多样、方便、耐久 及成本的降低, 各行各业保存的信息量也爆炸性地膨胀, 近年来由于因特网的发展, 情况更是如此. 但是, 如 何有效地搜寻信息, 方便、省时地得到有用的信息成为一大难题. 除非发展出新技术, 否则, 尽管信息量正在 以指数速率增长, 人们搜寻并获得有用信息的效率反而降低. 1 传统提取信息技术的困境 传统提取信息技术是把质询的词汇与文件中的词汇相匹配, 即以关键词为基础的信息提取系统. 问题 是使用者要提取的信息是以概念内容为基础的, 个别的词汇往往对有关文件的意义、概念主题提供不可靠的 输出. 表达一个给定的概念有多种方式, 而使用者质询的文字术语可能与相关文件中的概念术语并不匹配. 大部分词汇具有多重含义, 使用者质询使用的术语文字与文件中文字上匹配的术语往往不是使用者所感兴 趣的. 任何人只要利用过网上图书馆或W EB 搜索引擎就可以得到证明. 使用者利用质询的词汇与数据库 中文件的词汇匹配来提取信息, 但提取的信息远不完美. 存在两方面的问题, 一个是缺乏准确性, 提取出的 信息平均有50% 是不相关的; 其二是提取失败, 常常只有20% 的信息是相关的, 且问题难于掌握, 因为不知 道迷失掉的是什么. 迷失相关信息的主要理由是存在着许多种不同方式来描述同一个观念或概念. 外部的数据库大大增强人类记忆和解决问题的能力, 但现实是外部数据库提取信息是令人吃惊地困难. 关键词为基础的信息提取系统, 信息提取牵强, 提取不相关信息甚多, 错过相关信息达80% , 造成使用者精力 的大量浪费及对研究问题的不准确. 信息量爆炸膨胀, 但是得到有用信息却成了一件烦人的事. 这就是传 统提取信息技术的尴尬. 潜在语意索引(L atent Sem antic Indexing, 缩写为L S I) 是一种新技术, 新的方法. 设计这种技术是试图 解决困惑传统信息提取技术的基本问题, 达到克服术语匹配提取信息方法缺陷的目的. 2  方法 L S I L S I 方法假定在数据中存在某些基本的潜在语意结构, 使用了强有力的充分自动的统计方法, 揭示了术 语和文件的联系, 创立了一个语意或概念空间, 利用术语和文件的语意匹配索引和提取信息. 收稿

文档评论(0)

sunshaoying + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档