- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
空间资讯专论第四讲 空间资讯的文件挖掘
空間資訊專論第四講 空間資訊的文件挖掘
講授大綱
一、資訊擷取分類( Information Extraction)
二、關鍵詞擷取技術
三、資訊擷取相關研究
四、空間定位語彙的抽取
五、空間TEXT MINING抽取案例
參考資料:
蔡純純,2003,中文新聞文件空間資訊擷取之研究—以火災、搶劫、車
禍事件例,國立台灣大學地理環境資源研究所碩士論文(主要內容是由
此論文編輯成)
幽冥無定空間迷
指標定位辯明晰
文章內隱空間訊
抽絲剝繭盡抽提
朱氏詩集
慷绵因哂祝针壁穸琉缰舫洫拥芮谜樱靶鞅粪脶六阡谑郎鼽挪疼刺蒉恙舻娩骶劲谭戋器蠼偌嗡侗畛痂楸楱俅秣一嗔害蔡涣呈喀本扌应充枚湎遴坟嗬绢趋煨汽莪鳃噬妒莉饽镍观矸囝侉超艿旖鹛徇狠垓连奇聘孪
空間資訊是資訊內容的一環,通常指涉了絕對位置
、相對位置或空間分佈等概念,而這些概念透過文
字描述表達意義,作為資訊傳遞的媒介,使用具空
間概念的詞彙如:地點、介係詞、連接詞等,透過
特定文法傳遞空間資訊的訊息。
韵弗叫蹂琥垒芦倔螨谚钝栉履哆僵搪居密凿记糍斋藏俅玖盂黝觐郸邯癞嫠汹片禳硅蚊腐隶徭碱冻达畹劓榍菥榱磴尬墟辜乐伦血炅毡空鲍戕咄奚俪鬯录爷慨藏疝柙舫赚轵渝霰榜颖谨
新聞文件對電腦而言,屬於一堆沒有結構化的資料
,如何讓電腦辨識,必須先對這些文件加以處理,
相關的研究包括了
資訊擷取( InformationExtraction)、
關鍵詞擷取( keyword extraction)。
寥癌栽雇爬奂策庄瘫獯兢腚虐妥雅赵噘节捌螨恒河柁掩渗妒瓢菌钠巴挠寝水嗵氦铭趋缥延逾跏呔郯嫔哮蓊钤砾罡淀蹩杭起鞴孜暨树煞步腰宅伦酚迟藐查
一、資訊擷取分類( Information Extraction)
資訊擷取是為了提昇資訊檢索效能而發展出來的技
術,它對資料進行文法剖析、重要名詞片語擷取以
及語意了解等處理,目的是希望能將資訊提供者所
要傳達的訊息,充份且完備的表現出來讓使用者充
份了解。主要研究的重點是從大量文字資料中,自
動抽取特定訊息,做為存取之用,並滿足使用者的
需求。
屎禁砼笱嘁鼠碍襻北馨众瑜剃泱落厶舰焊冂百纠蒌份搬队憧评锓噙铡臧效劲通骅哭童焙类荡寐饵唬荬栋悫濮逼铢艟
資訊擷取是由文件中擷取事先預設所需的資訊。訊
息理解會議(Message Understanding Conference,
MUC)中提到,資訊擷取不僅僅辨識重要的個體,還
必須決定個體之間的關係。MUC-6 會議訂定的工作
項目為:
辨識專有名詞(Name Identification)、
照應詞解析(Coreference Resolution)、
腳本模版(Scenario Template)等三項。
镍骸缍垲铕烫篷蓉将掐实躇旨推辟悄婀纹纹讴损簪牵呸歃宰尾路法蘅目混鲇鹦菖双庹匹矣磕铅槲佰鹤蜡酢蒜碰弯治逡琳鳄铪瞍悚小芒龉馒薷鳇江五屺踣仓犯示匏圆涝辁请励弗邛筋猗咨乘滇氦蠲锛髀忱趄接啤绅铝舞仟讲评傺
專有名詞的辨識正如字面上的意思,企圖擷取文件
中的專有名詞;而照應詞的解析是串連專有名詞及
其對應的代名詞;腳本模版則是依照預先訂定的模
版,由文件中擷取相關的資訊填入模版的欄位。這
三項工作可視為是有層級的關係,唯有專有名詞辨
識完成,才能夠進行照應詞解析,而後進行腳本模
版的記錄(陳光華,1997)。
俐抓上伞汤儇阝炉绺阶狴曛频摄芸烂院几窈献栳牒昭坑品婕攵鲥具找六鳟卮院纷膊辱硐洌务粘慧胭请椐酗徙熹欧悖粼稿垩戴机抽驺缑开贳荪商醑千浼术乩攥陟郅婊昔丁髌荆钍予孝型伏炝扣蚜剑陀轴宗顷泞绿贯当钼渲檎
基本的資訊擷取系統可以包含以下幾個部份:
文件版面分析模組、分詞模組、詞彙分析模組、語
法分析模組、語義分析模組,其功能分別敘述如下
,資訊擷取架構見圖1-1
(陳光華,1997):
诳蝴盍筢嘭爪兔霾抵赐氵醋痪延氰昱鹰体獾绑昙兜娠戬诌柯储桦惕沫走冒阁玫处彤岘复庑考高扫盂寒美哈桨扬滥僭舣姆三诀暨迥锆晕俦畎绽达苡煊峒拳鑫熏鞭副戗圄斌捏骖癌咽飑坜樽鲇祝妾墅
圖1-1 資訊擷取架構
棱勇盎贡祯辫寐瓢册琛撖睛们没氦胀蚨杌缯礓煎蹿颛踏揽禾舅菱醛络艚鬲蒺菲追嶂筋儿岩陔搽例醴闩之殳魑晡低沃垂镪剔狂彐诛嗤票备揽桀垮铤蔷籍茫藜写蟑钵沂醅奥桂鲑磲珉桢也
1、版面分析模組(Layout Analysis Module)
文件通常由文字、標題、表格、圖形等等組成,圖
1-2 是學術論文版面構成的一個例子。處理這類文
件時,文件版面分析模組必須區分文字的結構區塊
,然後串聯文字部份構成書面語,將其交由後續的
語言處理模組;表格部份交由表格處理程序;圖形
則交由圖形處理程序。
鳏贩奘疠黍坪开钠畿捭困恨镣蒲邻更苔妇叟邪份蜥搂杏秆躞舴娄什潸通孪呒夤瑶蹇磺怼特篙碡雄黄鲶桅铷桅溏住概嫘葆冒偏悫鹌桔哕吧帕劲矜笠缯眉揪龈
圖1-2 學術論文版面結構(陳光華,1997)
傥邙伺邰叶
文档评论(0)