- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
空间信息专论第四讲 空间信息的文件挖掘和抽取案例;;幽冥无定空间迷
指标定位辩明晰
文章内隐空间讯
抽丝剥茧尽抽提
朱氏诗集;空间信息是信息内容的一环,通常指涉了绝对位置
、相对位置或空间分布等概念,而这些概念透过文
字描述表达意义,作为信息传递的媒介,使用具空
间概念的词汇如:地点、介系词、连接词等,透过
特定文法传递空间信息的讯息。 ;新闻文件对计算机而言,属于一堆没有结构化的数据
,如何让计算机辨识,必须先对这些文件加以处理,
相关的研究包括了
资讯撷取( InformationExtraction)、
关键词撷取( keyword extraction)。;一、信息撷取分类( Information Extraction);信息撷取是由文件中撷取事先默认所需的信息。讯
息理解会议(Message Understanding Conference,
MUC)中提到,信息撷取不仅仅辨识重要的个体,还
必须决定个体之间的关系。MUC-6 会议订定的工作
项目为:
辨识专有名词(Name Identification)、
照应词解析(Coreference Resolution)、
脚本模版(Scenario Template)等三项。 ;专有名词的辨识正如字面上的意思,企图撷取文件
中的专有名词;而照应词的解析是串连专有名词及
其对应的代名词;脚本模版则是依照预先订定的模
版,由文件中撷取相关的信息填入模版的字段。这
三项工作可视为是有层级的关系,唯有专有名词辨
识完成,才能够进行照应词解析,而后进行脚本模
版的记录(陈光华,1997)。;基本的信息撷取系统可以包含以下几个部份:
文件版面分析模块、分词模块、词汇分析模块、语
法分析模块、语义分析模块,其功能分别叙述如下
,信息撷取架构见图1-1
(陈光华,1997):;
图1-1 信息撷取架构;1、版面分析模块(Layout Analysis Module)
文件通常由文字、标题、表格、图形等等组成,图
1-2 是学术论文版面构成的一个例子。处理这类文
件时,文档版式分析模块必须区分文字的结构区块
,然后串联文字部份构成书面语,将其交由后续的
语言处理模块;表格部份交由表格处理程序;图形
则交由图形处理程序。 ;
图1-2 学术论文版面结构(陈光华,1997) ;2、分词模块(Word Segmentation Module)
中文分词方面中文文件与英文文件在信息撷取前置
处理上,最大的差别是,中文文件需断字处理而英
文文件不同。因为英文文件每个字与字之间,以空
白为区隔,而在中文文件,每个词汇相连词汇与词
汇之间并没有明显的区隔,需要利用工具或方法方
能将有意义的词汇分出来,分词并不如想象的简单
,举个例子说明如下:
;将刘大目的确实行动作了解释这个句子包含很多可
能的二字词(Two-character Words),例如:目的
、的确、确实、实行、行动、动作、了解、解释,
是只有一种分词结果是正确的 如下所示。
将˙刘大目˙的˙确实˙行动˙作˙了˙解释前述
的例子还有一个困难的问题必须处理,亦即如何辨
识刘大目是一个人名,而非三个单字词(One-
character Words)。 ;3、词汇分析模块(Lexical Analysis Module)
语汇分析模块主要是为词汇加上词类标记,进行更
高阶的处理。若是以下列的句子为例:「苏联总统
戈尔巴乔夫宣布,苏联将在短期内自古巴撤出一支为
数约一万一千人的训练旅」, ;依据中央研究院信息科学研究所词库小组建构的汉
语语料库,加上词类标记后为「苏联(Nc) 总统(Na)
戈尔巴乔夫(Nb) 宣布(VE),(COMMACATEGORY)苏联(Nc)
将(D)在(P)短期(Na)内(Ncd)自(P) 古巴(Nc)撤出
(VC)一(Neu)支(Nf)为数(Na)约(Da)一万一千(Neu)
人(Na)的(DE)训练(Na)旅(Na)」,其中括号内为该
词汇的词类,以N开头的词类如Na、Nb、Nc、Neu、
Nf为名词;以V开头的词类如VB、VC、VE为动词;以
D开头的词类如D、Da、DE 为副词;以P开头的词类
为介系词。;4、语法分析模块( Syntactic Analysis Module)
语法分析(剖析,Parsing)会产生所谓的剖析树
(Parsing Tree),其目的在于了解各词汇扮演的
语法功能。但是从剖析技术的学者专家都了解剖析
自然语言事实上是非常困难的,一个十几个字的句
子很有可能会有上百个可能的剖析树,进行完全的
剖析(Complete Parsing)常常无法做到,因此部
份剖析( Partial Parsing)的策略逐渐受到重视
。 ;5、语义分析模块(Semantic Analysis M
文档评论(0)