- 1、本文档共89页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
空间资讯专论ppt
空間資訊專論第四講 空間資訊的文件挖掘
講授大綱
一、資訊擷取分類( Information Extraction)
二、關鍵詞擷取技術
三、資訊擷取相關研究
四、空間定位語彙的抽取
五、空間TEXT MINING抽取案例
參考資料:
蔡純純,2003,中文新聞文件空間資訊擷取之研究—以火災、搶劫、車
禍事件例,國立台灣大學地理環境資源研究所碩士論文(主要內容是由
此論文編輯成)
幽冥無定空間迷
指標定位辯明晰
文章內隱空間訊
抽絲剝繭盡抽提
朱氏詩集
空間資訊是資訊內容的一環,通常指涉了絕對位置
、相對位置或空間分佈等概念,而這些概念透過文
字描述表達意義,作為資訊傳遞的媒介,使用具空
間概念的詞彙如:地點、介係詞、連接詞等,透過
特定文法傳遞空間資訊的訊息。
新聞文件對電腦而言,屬於一堆沒有結構化的資料
,如何讓電腦辨識,必須先對這些文件加以處理,
相關的研究包括了
資訊擷取( InformationExtraction)、
關鍵詞擷取( keyword extraction)。
一、資訊擷取分類( Information Extraction)
資訊擷取是為了提昇資訊檢索效能而發展出來的技
術,它對資料進行文法剖析、重要名詞片語擷取以
及語意了解等處理,目的是希望能將資訊提供者所
要傳達的訊息,充份且完備的表現出來讓使用者充
份了解。主要研究的重點是從大量文字資料中,自
動抽取特定訊息,做為存取之用,並滿足使用者的
需求。
資訊擷取是由文件中擷取事先預設所需的資訊。訊
息理解會議(Message Understanding Conference,
MUC)中提到,資訊擷取不僅僅辨識重要的個體,還
必須決定個體之間的關係。MUC-6 會議訂定的工作
項目為:
辨識專有名詞(Name Identification)、
照應詞解析(Coreference Resolution)、
腳本模版(Scenario Template)等三項。
專有名詞的辨識正如字面上的意思,企圖擷取文件
中的專有名詞;而照應詞的解析是串連專有名詞及
其對應的代名詞;腳本模版則是依照預先訂定的模
版,由文件中擷取相關的資訊填入模版的欄位。這
三項工作可視為是有層級的關係,唯有專有名詞辨
識完成,才能夠進行照應詞解析,而後進行腳本模
版的記錄(陳光華,1997)。
基本的資訊擷取系統可以包含以下幾個部份:
文件版面分析模組、分詞模組、詞彙分析模組、語
法分析模組、語義分析模組,其功能分別敘述如下
,資訊擷取架構見圖1-1
(陳光華,1997):
圖1-1 資訊擷取架構
1、版面分析模組(Layout Analysis Module)
文件通常由文字、標題、表格、圖形等等組成,圖
1-2 是學術論文版面構成的一個例子。處理這類文
件時,文件版面分析模組必須區分文字的結構區塊
,然後串聯文字部份構成書面語,將其交由後續的
語言處理模組;表格部份交由表格處理程序;圖形
則交由圖形處理程序。
圖1-2 學術論文版面結構(陳光華,1997)
2、分詞模組(Word Segmentation Module)
中文分詞方面中文文件與英文文件在資訊擷取前置
處理上,最大的差別是,中文文件需斷字處理而英
文文件不同。因為英文文件每個字與字之間,以空
白為區隔,而在中文文件,每個詞彙相連詞彙與詞
彙之間並沒有明顯的區隔,需要利用工具或方法方
能將有意義的詞彙分出來,分詞並不如想像的簡單
,舉個例子說明如下:
將劉大目的確實行動作了解釋這個句子包含很多可
能的二字詞(Two-character Words),例如:目的
、的確、確實、實行、行動、動作、了解、解釋,
是只有一種分詞結果是正確的 如下所示。
將˙劉大目˙的˙確實˙行動˙作˙了˙解釋前述
的例子還有一個困難的問題必須處理,亦即如何辨
識劉大目是一個人名,而非三個單字詞(One-
character Words)。
3、詞彙分析模組(Lexical Analysis Module)
語彙分析模組主要是為詞彙加上詞類標記,進行更
高階的處理。若是以下列的句子為例:「蘇聯總統
戈巴契夫宣佈,蘇聯將在短期內自古巴撤出一支為
數約一萬一千人的訓練旅」,
依據中央研究院資訊科學研究所詞庫小組建構的漢
語語料庫,加上詞類標記後為「蘇聯(Nc) 總統(Na)
戈巴契夫(Nb) 宣佈(VE),(COMMACATEGORY)蘇聯(Nc)
將(D)在(P)短期(Na)內(Ncd)自(P) 古巴(Nc)撤出
(VC)一(Neu)支(Nf)為數(Na)約(Da)一萬一千(Neu)
人(Na)的(DE)訓練(Na)旅(Na)」,其中括弧內為該
詞彙的詞類,以N開頭的詞類如Na、Nb、Nc、Neu、
Nf為名詞;以V開頭的詞類
文档评论(0)