語言科技,與數位典藏簡介語言座標(update).pptVIP

語言科技,與數位典藏簡介語言座標(update).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
語言科技,與數位典藏簡介語言座標(update)

The Mission and Vision of Linguistic Anchoring 語言座標的理念與遠景 「數位典藏國家型科技計畫」 黃居仁 2003.9.9.自然科學博物館 數位典藏的What and How What: 典藏的內容知識與訊息 文本的知識內容是語言或文字 How:知識與訊息表達的方式 非文本知識的表達與傳遞 使用語言與文字 最不受媒介所限,也最方便人的理解 語言座標的規劃與建置 不同典藏間的連結與知識排比,必須靠語言(特別是詞彙)來穿針引線 語言座標跨越時間(歷代語言變遷),空間(方言差異),語言(多語對比),領域(專門詞彙),社會階層等 語言座標-參考資源建置與服務 未來網際網路的發展 ─語意網 數位典藏如何在語意網的架構下維持並衍生新價值? 語言在語意網中 扮演什麼角色? 以語意之名:由詞義,詞網,到未來的網際網路 未來網際網路的發展─語意網 語言在語意網中扮演什麼角色? 語文知識網路的建構-- 由語言資源到語言知識本體的必經階段 從「全球資訊網」到「語意網」 全球資訊網…仍只是人們交換文件的載體,其中的資訊是機器不能自動運用的。 如果我們針對電腦,增加專門提供給電腦閱讀的網頁,我們就可把現有的網路轉換成「語意網」。 電腦如何閱讀語意? 利用RDF(資源描述架構)與URI(通用資源標誌碼)連結到相關網頁/資源 藉超連結找到關鍵詞後 藉知識本體(Ontology)定義關鍵詞,並做邏輯推理 網路上的語意問題 尋找 ─去年貿易會上相遇的那位Cook女士 你不記得她的名字了! 她為你的一位客戶工作 他的兒子在你的母校就讀 網路上的語意問題 COOK 廚師 烹飪方法(如「如何煮魚?」) 庫克群島 庫克船長 姓 Cook 的人…. 深入精確的自動搜尋 利用網路上的語意訊息與知識本體, 把分散在不同網頁的部分訊息結合, 找到所要的搜尋結果 如: ─所有客戶公司員工名單中姓Cook的女性 ─你母校的學生名單中所有姓Cook的男生 ─核對上兩個名單中有無母子關係者 語意網路如何進行 深入精確的自動搜尋 ? 能區辨詞義(sense) 可以利用本體論的知識架構判定正確的詞義 能利用本體論進行推理與訊息的整合 知識本體(Ontology) 對任一網頁/資源知識內容及資訊架構的描述與定義 以RDF(或類似語言)寫成的文件,清楚定義概念間的關係和推理的邏輯規則 ─請注意資訊學中把ONTOLOGY當成知識/訊息的基底架構;與哲學中本體論的原定義大不相同 語言資源的可塑性 有了通用的後設資料標準之後 新的語言典藏可以靠直接擷取現成的網路或其他電子資源而建立 豐富的知識訊息可以藉建立每個文件的時空與語言座標而得到 語文知識網路: 以詞彙知識庫為媒介的知識融通 詞彙出現與使用的時序訊息(如首次使用之出處),由典藏資料庫中擷取,載入詞彙知識庫. 針對本身就有內部時序性的文本或辭典(如劇本,課本,斷代史等) 不同文本中的分布對比訊息也載入詞彙知識庫 可提供直接有效的對比研究(如版本,作者,時代,方言等) 以文國尋寶記為例.tw/wen 個 這個通用的中文量詞 在小學國文課本中第一次出現,在 國編館本:第 1冊,第5課 南一本:第 1冊,第8課 康軒本:第 2冊,第1課 請注意 ─出處以顏色區分 ─新詞初次使用,引用整句出處 藉詞彙知識庫來偵定 語言能力的發展 「文國」的使用者在進入網站時,可以先聲明自己的年級或程度(三年級上學期等) ─協助控制使用說明與學習活動牽涉的詞彙難易度 ─自我/客觀檢測學習者的語文能力發展與學習成效 文國尋寶記  .tw/wen 藉詞彙知識庫來偵測 其他語言知識的演變 根據歷時歷史語料庫建立的詞彙知識庫忠實訪映一個語言的詞彙演變 上古漢語語料庫(300-0 B.C.)共有三百餘萬詞,詞彙庫有七千餘詞 記錄小說\劇本中的情節或角色發展 追蹤語言演變時在地理上的擴展. 如何融通詞彙知識庫中的知識 任一典藏中表達的知識概念可以該典藏的詞彙知識庫表達 古典或經典著作的詞彙知識庫不但提供詞彙的精確典雅用法,且可立即連結出處原文 「搜」文解字 .tw/~words 以「搜」文解字為例 儒家的經典: 論語, 孟子 道家的經典 老子,  莊子 ─可找出各學派專用的詞彙(如只在論,孟中出現;老,莊卻不用的)注意是詞彙,不是字 ─追蹤思想在以後文獻中的發展(如唐詩中用的道家詞彙) 把詞彙知識庫 投射到其他語言資源 語言資源因其資料的來源而定義其資料格式:如語料庫,文法,詩歌,口述故事,等等 LKB詞彙知識庫不但提供了原始資料中未載明的訊息(如音韻,構詞,語意,雙語對比等);而且是不同形式語言資源唯一可以彼此互相比較,產生新知式的層次。 以

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档