空间信息专论第四讲空间信息文件挖掘与抽取案例.pptVIP

空间信息专论第四讲空间信息文件挖掘与抽取案例.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
空间信息专论 第四讲 空间信息的文件挖掘和抽取案例;;幽冥无定空间迷 指标定位辩明晰 文章内隐空间讯 抽丝剥茧尽抽提 朱氏诗集;空间信息是信息内容的一环,通常指涉了绝对位置 、相对位置或空间分布等概念,而这些概念透过文 字描述表达意义,作为信息传递的媒介,使用具空 间概念的词汇如:地点、介系词、连接词等,透过 特定文法传递空间信息的讯息。 ;新闻文件对计算机而言,属于一堆没有结构化的数据 ,如何让计算机辨识,必须先对这些文件加以处理, 相关的研究包括了 资讯撷取( InformationExtraction)、 关键词撷取( keyword extraction)。;一、信息撷取分类( Information Extraction);信息撷取是由文件中撷取事先默认所需的信息。讯 息理解会议(Message Understanding Conference, MUC)中提到,信息撷取不仅仅辨识重要的个体,还 必须决定个体之间的关系。MUC-6 会议订定的工作 项目为: 辨识专有名词(Name Identification)、 照应词解析(Coreference Resolution)、 脚本模版(Scenario Template)等三项。 ;专有名词的辨识正如字面上的意思,企图撷取文件 中的专有名词;而照应词的解析是串连专有名词及 其对应的代名词;脚本模版则是依照预先订定的模 版,由文件中撷取相关的信息填入模版的字段。这 三项工作可视为是有层级的关系,唯有专有名词辨 识完成,才能够进行照应词解析,而后进行脚本模 版的记录(陈光华,1997)。;基本的信息撷取系统可以包含以下几个部份: 文件版面分析模块、分词模块、词汇分析模块、语 法分析模块、语义分析模块,其功能分别叙述如下 ,信息撷取架构见图1-1 (陈光华,1997):; 图1-1 信息撷取架构;1、版面分析模块(Layout Analysis Module) 文件通常由文字、标题、表格、图形等等组成,图 1-2 是学术论文版面构成的一个例子。处理这类文 件时,文档版式分析模块必须区分文字的结构区块 ,然后串联文字部份构成书面语,将其交由后续的 语言处理模块;表格部份交由表格处理程序;图形 则交由图形处理程序。 ; 图1-2 学术论文版面结构(陈光华,1997) ;2、分词模块(Word Segmentation Module) 中文分词方面中文文件与英文文件在信息撷取前置 处理上,最大的差别是,中文文件需断字处理而英 文文件不同。因为英文文件每个字与字之间,以空 白为区隔,而在中文文件,每个词汇相连词汇与词 汇之间并没有明显的区隔,需要利用工具或方法方 能将有意义的词汇分出来,分词并不如想象的简单 ,举个例子说明如下: ;将刘大目的确实行动作了解释这个句子包含很多可 能的二字词(Two-character Words),例如:目的 、的确、确实、实行、行动、动作、了解、解释, 是只有一种分词结果是正确的 如下所示。 将˙刘大目˙的˙确实˙行动˙作˙了˙解释前述 的例子还有一个困难的问题必须处理,亦即如何辨 识刘大目是一个人名,而非三个单字词(One- character Words)。 ;3、词汇分析模块(Lexical Analysis Module) 语汇分析模块主要是为词汇加上词类标记,进行更 高阶的处理。若是以下列的句子为例:「苏联总统 戈尔巴乔夫宣布,苏联将在短期内自古巴撤出一支为 数约一万一千人的训练旅」, ;依据中央研究院信息科学研究所词库小组建构的汉 语语料库,加上词类标记后为「苏联(Nc) 总统(Na) 戈尔巴乔夫(Nb) 宣布(VE),(COMMACATEGORY)苏联(Nc) 将(D)在(P)短期(Na)内(Ncd)自(P) 古巴(Nc)撤出 (VC)一(Neu)支(Nf)为数(Na)约(Da)一万一千(Neu) 人(Na)的(DE)训练(Na)旅(Na)」,其中括号内为该 词汇的词类,以N开头的词类如Na、Nb、Nc、Neu、 Nf为名词;以V开头的词类如VB、VC、VE为动词;以 D开头的词类如D、Da、DE 为副词;以P开头的词类 为介系词。;4、语法分析模块( Syntactic Analysis Module) 语法分析(剖析,Parsing)会产生所谓的剖析树 (Parsing Tree),其目的在于了解各词汇扮演的 语法功能。但是从剖析技术的学者专家都了解剖析 自然语言事实上是非常困难的,一个十几个字的句 子很有可能会有上百个可能的剖析树,进行完全的 剖析(Complete Parsing)常常无法做到,因此部 份剖析( Partial Parsing)的策略逐渐受到重视 。 ;5、语义分析模块(Semantic Analysis M

文档评论(0)

blingjingya + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档