字串频率统计和词形匹配相结合的分词系统
中文文本
自動分詞與標注
Term Project Presentation
第9章 漢語自動分詞軟件系統
楊祝晉
目錄摘要 3
1. 字串頻率統計和詞形匹配相結合的分詞系統 4
一、 系統結構及其各種模型的主要功能 4
二、 實驗結果及分析 8
2. 基於聯想-回溯方法的漢語自動分詞系統 9
一、 系統結構及分詞方法 9
二、 分詞知識庫的多層次建構 12
參考文獻 18
摘要
自80年代初提出漢語自動分詞系統以來,已經提出了多種分詞方法,例如:正向最大匹配、逆向最大匹配、窮多層次列舉、鄰接約束、聯想-回溯、詞頻統計、專家系統、類神經網路等方法。不同的分詞方法模擬了分詞行為的不同面向,取得了不同的成效,並且已應用在不同用途的中文訊息處理系統上。
本章主要介紹字串頻率統計和詞形匹配相結合的分詞系和聯想-回溯的分詞系統。
1. 字串頻率統計和詞形匹配相結合的分詞系統
無詞典分詞方法研究已有一些相關的文獻在探討,本節介紹一種漢語自動分詞系統,該系統便是採用了無詞典自動分詞方法,亦即根據字串在上下文和背景庫中出現的頻率分別抽取出特徵詞和常用詞。實驗證明:無詞典分詞方法能夠在結合上下文識別未登錄詞和消除歧見上顯示出其優點,同時保留機械匹配分詞對常用詞切分速度快、正確度高的長處。但由於該方法不借助詞典,因而對常用詞的切類精確度較低,並且串頻統計的計算量大,分詞的速度還是不會太快。
系統結構及其各種模型的主要功能
系統架構圖
該系統對原文進行三遍掃描:第一遍,利用切分標記將原文分成較短字串序列;第二遍,根據每個短字串的子字串在上下文中的頻率計算其權重值,權重值大的子字串視為候選詞;第三遍,利用候選詞和常用詞典對短字串進行切分。
由圖一,本系統由三個主要模型構成,包括:初步處理模型、字串頻率統計模型、分詞處理模型;四個詞典:單字數詞詞典、單字量詞詞典、態常用詞詞典、臨時詞典;二個資料庫:切分標記庫和詞綴集。以下分別介紹各個部分的詳細內容以及舉例說明。
初步處理模型
利用顯式切分標記(標點、數字、外文、其他非漢字符號等)和隱式切分標記(出現頻率高、構詞能力差的單字詞)將原分成較短的字串序列集。
隱式切分標記規則知識庫
隱式切分標記是客觀存在的,例如:「的」這個字,在語料中平均每二十五個字就會出現一次,而「的」這個字的構詞能力並不強,能組成的詞語有「的確」、「有的」等少數。所以他是一個非常好的切分標記。依此,將總結出來的切分標記和及其構詞表組成一個規則知識庫。
例切分標記「的」字的規則
LR 有*放矢 無*放矢 有*是 L* 別* 似* 是* 有* 目* 一語破* 眾矢之* R* *確 *話 *上# 上例中的含義是:「的」是一個隱式切分標記。LR、L*、*R所在行分別代表對於當前原文「的」字周圍環境的三種判斷;例如:L*表示「的」的左邊不是別、似等。而#代表一條規則結束。此系統共收集此類規則共一百八十一條。
隱式切分標記規則知識庫
若LR判斷滿足且L*判斷滿足,則可以在切分標記的左邊將字串切開;若LR判斷滿足且*R判斷滿足則可以在切分標記的邊將字串切開。
此外,系統還收錄了單字數詞詞典和單字量詞詞典,若在字串中搜索到「單字數詞 + 單字量詞」的模式,則將量詞視為切分標記,在量詞的左右兩邊將字串切開。此系統共收集了一百一十五個常用量詞。
字串頻率統計
計算各字串序列的所有長度大於1的子字串在局部上下文200字左右經驗值)中的出現次數,並根據字串頻率和字串長度做加權函數 W = F * L3
(F為字串頻率亦即此子字串在上下文中出現的次數;L為字串長度)。若計算出來的權重超過給定的預設值,則此子字串將這些詞語存入臨時詞庫中。
字串上下文頻率的計算方式
滑動窗口
任何字串的頻率皆會透過其局部上下文計算,在系統實作是利用一個滑動窗口,亦即一個陣列式緩衝區,其中儲存著正在處理的字串,及其在原文前二十以及後二十個子串,按照其在原文中出現的順序來做排列。當目前處理的字串,處理完畢時,窗口中第一個字串將移出陣列之外,同時將讀入一個新的字串至陣列的尾部。
雜湊函數列表(外散列表)
為了迅速計算目前子串在局部上下文中出現的次數,需要將滑動窗口中的字串皆轉換成雜湊列表的形式。在國際標準GB2312-80中,每個區有94個漢字,這些漢字的位碼就是1到94,而動態雜湊列表設立95個位置,對於一級漢字,位碼就是它的雜湊函數值,而所有的二級漢字共用一個入口95。每個 Slot 內容就是一個序對 = 串號 + 字號,中串號是該字所在的子串在滑動窗口中的序號,字號表示該字所在的子串中排在第幾個字,此序對唯一表示了一個字在滑動窗口中的一個位置,若該字在滑動窗口出現多次,則將不同的序對利用鏈結串列表來表示。
字串頻率計算
當欲計算某個字串出現
您可能关注的文档
- 备用桃果实柔软多汁风味芳香营养丰富为老少皆宜的食用水果.DOC
- 复合材料概论课程教学大纲.PDF
- 夏练三伏拳不离手曲不离口只要功夫深.PPT
- 外墙脚手架搭设有关要求-建筑施工组织设计大全10G.DOC
- 多姿多彩海洋生物的-温州滨海学校.PPT
- 多少头牛126天可吃完72公亩牧场上的全部牧草.PPT
- 多领域复杂系统的多学科设计优化-课程中心-湖南大学.PPT
- 大功率汗蒸房综合控制箱BT8000-B.PDF
- 大叶大学-电机工程学系.DOC
- 大学在挑战中成长在失去中收获-陕西师范大学生命科学学院.PDF
- 新人教版四年级科学上册期末测试卷及答案【精品】.doc
- 新人教版四年级科学上册期末考试(加答案).doc
- 深度解析(2026)《GBT 29574-2013大阿米芹检疫鉴定方法》.pptx
- 新人教版四年级科学上册期末测试卷及答案【可打印】.doc
- 新人教版四年级科学上册期末测试卷及答案(1).doc
- 新人教版四年级英语(上册)期中试卷及答案(一套).doc
- 新人教版四年级科学下册期中试卷【及答案】.doc
- 新人教版四年级科学下册期中试卷及答案1套.doc
- 深度解析(2026)《GBT 29562.2-2013起重机械用电动机能效测试方法 第2部分:YZRYZ系列三相异步电动机》.pptx
- 新人教版四年级科学下册期中考试题含答案.doc
最近下载
- 支部党员大会会议记录(支委会选举范例).docx VIP
- 深圳市宝安区2025-2026学年第一学期五年级语文期末学业质量评估卷(原卷+答案)统编版.docx VIP
- 山桐子种植加工、旅游项目可行性研究报告商业计划书.docx VIP
- 山桐子种植及种苗培育种植加工可行性研究报告申请备案.doc VIP
- 和田地区2026年度地直机关公开遴选公务员、事业单位公开选聘工作人员备考题库及完整答案详解1套.docx VIP
- 山桐子合作种植协议合同.docx VIP
- 2025年香氛未来趋势报告-英敏特.docx VIP
- 报告正文2014年太阳绿宝.pdf VIP
- 2025年高考:云南物理--试题及答案.pdf VIP
- 广东省深圳市宝安区2025-2026学年五年级上学期期末学业质量评估语文试卷.docx VIP
原创力文档

文档评论(0)