非结构化信息管理和搜索的发展现状.docVIP

非结构化信息管理和搜索的发展现状.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非结构化信息管理和搜索的发展现状.doc

  非结构化信息管理和搜索的发展现状   1 关键词全文检索技术日显局促,亟待突破 世界范围的正以 目前 每9个月增加一倍的速度飞速 发展 ,并还将以指数速度继续增加。而另一方面,在从an Group发布的2004 y的“样板工程”Blinkx英德中文版已经推出 2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、y就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局 自然 也会跟着发生翻天覆地的变化。 如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在y公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Autonomy虽然在公众中的知名度不太大,但在商业 应用 领域中却名声显赫,并在政府、国防、新闻、 金融 、电信、 教育 等领域拥有大量中坚客户。而且,Autonomy还是一个“ 历史 悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。   3 Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息 目前,人类 研究 的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。 采用“模式识别”搜索 方法 ,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果 影响 微乎其微。 如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息[6]。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。 目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用[7]。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。   4 Autonomy的技术特点和优势 分析 Autonomy软件设计的原则是无需用户改变已有的使用习惯,甚至无需改变已有的用户界面,它支持所有传统的检索和设置方式,包括关键词、逻辑语言、布尔语句等,同时提供给用户更多、更简洁的定义 方法 ,如对所需信息的 自然 语言描述、文章概念的定义,还可以通过反馈的

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档