信息抽取技术与网络情报资源快速获取.docVIP

信息抽取技术与网络情报资源快速获取.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息抽取技术与网络情报资源快速获取

0 」 A FT EC A3 曰叶 R鱿 洲叭日C R 】1 N LO H 川N 冗1 只】 亚情报学报 葵 侧 」 03 】 Nl 】 一 15 N 冉 D吸汉H IA 〕 N L研F R A N 】 c l M n0 〕 4 】 03 引 岛N I 】 一 15第乃 卷 一5 翻9 41    年 1 以 2拓 0月 V 2 d5 朽 49一 1 (t k 曲. 口 2拓 信息抽取技术与网络情报资源快速获取 马 涛 姜晓菊 庞丽丽 韩志强 (中国兵器工业集团第20    北京 以 5) 1 研究所, 1刃 9     信息抽 肠 叫t E刀‘ ) 摘要 o. n 应用 近年来受到越来越多的重视。在网络情 取(而 i 川.o 是一种 性的语言处理技术,      报资源快速获取方面更是具有广阔的应用前景。本文针对信息抽取的内涵、 信息抽取的技 网络情报信息源特点、 术难点、 信息抽取前提、 外代表      国 性信息抽取工 方面 较为 具等 作了 详尽的 绍了 川 y 论述并介 一种基于领域。 咖g的信      对网络情报信息抽取技术的发展趋势予以展望。 息抽取过程。最后, 关键词      如拓 信息抽取 领域。 叶 自然语言 语义网 现和解释数据模型。信息抽取技术并不试图全面理解整篇 1 引 言 只是对文档中包含相关信息的部分进行分析。至于哪 文档, 将由抽取系统设计时所服务的领域范围而 些信息是相关的, 当今时代.      互联网正逐步成为一个超大规模的信息派, 定。人们可以通过搜家引攀查找所需的信息, 并通过浏览网页的方式获取信息。同时, 现代社会信息趋于日益公开化、网络 3 网络信息源特点化,在美国、英国等军事强国,网络倩报收集已经成为情报工作的一种重要手段 , 利用公开的网络情报资源来抽取重要信      互联网提供了一个巨大的情报信息源。这种信息源往息辅助战略决策。在我国 计算机信息网络的应用也使情报 中间还夹杂着结构化和自由文本。网上信 往是半结构化的, 但是.研究工作环境与手段发生了巨大改变, 面对互联网 日 包含超链接, 息还是动态的, 具有不同的表现形式,实现了跨 传统人工阅读方式已无能为力,益庞大的数据资源, 悄报研 互联 网站和平台的全网共享。因此, 网是一个特殊的挑战.究人员需要寻求新的信息获取模式来迎合这个快速、 的 高效 一直推动着从结构化 和半结构化文本中抽取信息研究 的向网络情报时代 , , 为此 信息抽取技术应运而生。 但 前迈进。有些研究者把所有网页都归入半结构化文本, .〕 : t H. 对网页类型 若能通过识别分隔符 做了颇有用的定义: 2 信息抽取内涵 属性一 正确抽取 或信息点顺序等固定的格式信息即可把“ 值” 那么, 出来 . 该网页是结构化的。半结构化的网页则可能包 信息抽取是信息搜索的进一步发展。它是一种应用技      或一个属性有多个值, 含缺失的属性, 或一个属性有多个变术, 研究指定信息的查找 、 理解和抽取 , 并以适当的方式枪出 体等例外的情况。若需要用语言学知识才能正确抽取属性,所指定的信息。它是多种基本的自然语言迹理技术的综合 则该网页是非结构化的。网页的结构化程度总是取决于用 具有广泛的应用领域。在信息化浪潮的推动下,应用 . 西方 机器产生的网页是非常结 户想要抽取的属性是什么。通常 ,发达国家都十分重视信息抽取技术的研究和应用, 把它列为 构化的,手工编写的则结构化程度差些,当然有很多例外。与信息搜索、信息理解、 语音识别等并重的 文档归类和摘要、 网上大部分内容都以属性列表的形式呈现,例如很多可搜索 需要比较深人语言工程项目。信息抽取是一门综合的技术, 的网页索引。这种外观上的规律性可被利用来抽取信息,避的语言处理基本理论和技术作为支律。信息抽取是从一段 免使用复杂的语言学知识。网页上的组织结构和超链接特文本中抽取指定的一类信息, 然 并将其形成结构化的数据, 性也是需要认真考虑的重要因素。例如,可能需要打开链接后填人一个数据库中供用户查询使用的过程川。信息抽取 的内容才能找到你想要的信息。因此.网页的组织结构不的目 变成表格一 标是把文本里包含的信息进行结构化处理 , 相应的抽取规则也不同。 同, 输出的是固定格式的样的组织形式。枪人信息是原始文本.信息点。信息点从各种各样的文档中被抽取出来, 然后以统 4 信息抽取技术难点一的形式集成在一起。信息以统一的形式集成在一起的好 例如比较不同的招聘和商品信息。另处是方便检查和比较, 信息抽取技术是针对结构文档、      纯文档进 半结构文档、 如用数据挖掘方法发外一个好处是能对数据作自动化处理 , 行的知识抽取, 抽取出对我 去除文档中不需要的冗余信息, 49 情报学报 以 0 第 乃 卷 2

文档评论(0)

zhuwenmeijiale + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档