- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
史籍分析平臺的本體構建.doc
史籍分析平臺的本體構建
北京大學中文系 李鐸
摘要:
關鍵詞:
一、本體與本體庫
ONTOLOGY原本是十八世紀產生的哲學概念,二十世紀九十年代進入信息科學領域。目前我們就簡依哲學的翻譯方法,譯爲“本體”。既然是哲學術語,其基本意義依然是哲學的,即使是在計算機科學領域,如果從哲學的角度來思考研究它,它的意義便會清晰地顯現出來。
本體是抽象的概念,它所對應的是具體的事物。抽象的概念是不可以感覺到的,但是是可以思考的。而具體事物是可以感覺到,但是是不可以思考的。所以,本體是人類爲了思考而從具體物抽象出的概念。本體是人類思考,即認識、分類、判斷、推理地基礎。同樣的,如果要使計算機能夠思考,就必須從建設本體,所以,本體是人工智能AI的基礎。
本體不同於關係型數據庫,它要求用最基本的信息,盡可能小的內涵來達到最小的外延。應用於自然科學領域的,以質、量爲最基本需求。而人文社會科學,則需要時間、空間爲其最基本信息。而本體不同類間的關係,要求關聯,同類本體間,就需要建設如“父子”之關係。所以,“名、時、空和關係”爲其最基本的項。
針對中國古代文獻分析的需求,我們初步建設了“人物”、“地名”、“時名”、“職官”、“機構”、“文獻”本體。
本體的結構,以列分,爲4-6列,目前最大的是5列。一般均爲4列,如下:
一、名稱,即該本體的概念名詞,同時含別名表。
二、時間,是指該概念的存活期,起止時間。
三、空間,是地理信息,所處位置。
四、關係,層級關係。
如,地名:鄭州
一、鄭州;鄭
二、北宋
三、34.45/113.42(經緯度)
四、父:京西北路;子:原武、密縣、大隗、嵩渚山、梅山、滎陽、滎澤、賈谷、新鄭、須水、鄭州、管城
而人名則需要比基本信息增加一項,即:職官或職業。如,人名:李白
一、李白;白;太白;青蓮居士;
二、701/763
三、隴西成紀
四、父:李客
五:門下左拾遺
而其他的信息則是由不同的本體提供關聯的,如李白的作品,在“文獻”本體中,有作者項,其作者“李白”與人物本體“李白”相連接。同類本體關聯亦如此:如兄弟關係,則因爲他們有共同的“父”,在應用中自動生成兄弟等各種人物關係。“同僚”則以人物“職官”加“時間”通過“機構”而動態生成。
由於本體處在建設時期,提取的信息往往是不完善的,因此,我們在建設中設計了更多的關係層,這樣便於相互關聯,然而,在本體達到一定的量時,就會讓計算機自動整理,刪除不必要的信息。
有了人物文本庫,在分析歷史人物時,就可以不遺漏的找到全部的相關語料。這時,我們如果告訴計算機,我想要中國歷史上全部帝王的信息。計算機依人物本體庫中的爲官信息來判定該人物是否曾爲帝王,可以迅速將歷史上的帝王列出來,這還不算復雜,因爲,僅僅是在檢索語料,在檢索時代用別的手段也可以做到。但是要做更復雜一些的工作,比如,我想知道《資治通鑑》中所記載的九十餘次地震中,有那些帝王參與了善後處理,想知道哪些帝王參加過戰爭,哪些帝王不參加占卜活動,哪些帝王和平民的關係密切,哪些帝王和詩人、藝術家交往比較多,等等。這些問題,如果早幾年提出,那是在刁難計算機。而今天,這些問題幾乎可以說已經不算問題了。因爲我們使用數據分析,而不僅僅是檢索,讓計算機用分析的方法,爲我們的命題求解。數據分析必須建立在“本體”的基礎上。
然而有了人物本體庫還不夠,還不能真正對文獻進行數據分析,因爲它所面對的文獻數據是一堆“平面數據”,計算機並不夠保證查全率和查準率的同時完善。如,唐太宗,在文獻中並不一定是以“唐太宗”三個字出現的,如果是就容易多了,它可能僅是兩個字“太宗”,這樣一來,計算機就可能會將中國歷史上廟號稱爲“太宗”的十二位都檢到,它分不清哪個是“唐太宗”哪個是“宋太宗”哪個是“清太宗”。更有甚者,僅一個字,如“上”,它如果代表皇帝,就可以代表歷史上幾乎所有的皇帝。我們面臨兩難的選擇,如果我們用“精確匹配”,在查全方面大量損失信息,如果我們用“模糊匹配”,在準確性方面就不可靠,如果是僅限於檢索,計算機可以羅列出大量的並不是你所要的信息,如果讓計算機分析,讓它做上述的課題。那結論必然是不可靠的。
因此,計算機在分析文獻時,衹能對已標記的文獻進行分析。先將文獻中的“太宗”分別標記爲“李世民”的ID、“趙匡義”的ID和“愛新覺羅皇太極”的ID。這樣我們纔能分別對待之。也就是在分析之前,需要對文獻做預處理,需要對人物做一一標記,明確關聯到不同人物的ID上去,使原本“平面數據”變成“立體數據”。
如何標記古代文獻,這是目前古代文獻信息處理的一大難題。小量的文獻,人工標引是可能的,但是對數億漢字的文獻,衹能讓計算機做預處理,做預先的標引。
標記的第一步是用已建設成型的本體庫來掃描文獻,幾乎不引起歧義的,就可以直接標記上去。由於古代人對人的稱謂比較復雜,而且單字的過多,就會有
您可能关注的文档
最近下载
- 《克拉玛依市城市总体规划》(2014-2030年).pdf
- The Blue Planet《蓝色星球(2001)》第一季第三集完整中英文对照剧本.docx VIP
- 新教科版五年级上册科学全册教学反思.doc
- 抗风湿病药物性肝损伤诊治中国专家共识(2024年版)解读.pptx
- GB 50966-2014 电动汽车充电站设计规范.docx
- 国家开放大学《商务英语4》章节自测1-8参考答案.pdf
- 实验九 动物细胞内微丝结构的观察(鬼笔环肽标记法).ppt
- 全国大学生职业规划大赛获奖PPT模板.pptx
- 《机械设计基础(第三版)习题册》参考答案.pdf VIP
- The Blue Planet《蓝色星球(2001)》第一季第四集完整中英文对照剧本.docx VIP
文档评论(0)