- 3
- 0
- 约1.78千字
- 约 15页
- 2017-12-10 发布于湖北
- 举报
中文信息處理現代漢語詞彙研究第五章詞的概率語法屬性描述研究及其成果
中文信息處理現代漢語詞彙研究 第五章 詞的概率語法屬性描述研究及其成果 許珮薰 May 17, 2007 漢語語法特點 語言單位 詞的形態變化 虛詞 句法結構 時態、語態和語氣 形式和意義的對應 詞語分類 研究目標 帶詞性的詞頻統計 兼類詞的分佈概率 詞的語法屬性的概率值描述 分析資料來源 1995~2000年共計1.5億字《人民日報》語料 《語法信息辭典》 帶詞性的詞頻統計 詞頻統計 詞語+拼音+詞類 = primary key 全年頻度 觀察頻度在各月分佈 判別重要性、通用性 摘要 前40個高頻詞中,虛詞有11個,廣義虛詞有20個 名詞在一定程度上能反映文章內容,這裡出現:中國、經濟、國家…。反應做為中國主流平面媒體的特點。 總次數不足以判定詞的通用程度,頻次高且分佈均勻的詞才是更通用、更重要的詞。 分佈均勻度 (Distributed Consistency) 將語料庫的詞語集合S劃分為n個大小相同的子集: 詞語 在這些子集中的頻度為 分佈均勻度 均勻度只依賴於一個詞在語料庫的各子集中的頻次,與詞彙全集的確定以及其他詞的頻次無關。 兼類詞的分佈概率 同一詞有不同詞性 例如:『在』兼屬介詞、動詞和副詞。 詞的語法屬性的概率值描述 屬於同一類的詞也有很多不同的屬性 例如:部分的動詞可以受副詞”很”修飾 詞語語法屬
您可能关注的文档
最近下载
- 高考生物考前必背(共28页).pdf VIP
- 西子奥的斯almcb4 2使用说明书1.pdf VIP
- 人工智能 智能体互联 第2部分:身份码.pdf VIP
- 江西省新余市2024-2025学年七年级下学期期末测试数学试卷(含解析).pdf VIP
- 2025年甘肃省白银市中考数学试卷真题(含标准答案)原卷.pdf
- (完整版)《机械工程测试技术基础》熊诗波课后习题答案.pdf VIP
- 人工智能 智能体互联 第1部分:总体架构.pdf VIP
- 基层医疗卫生机构常见新生儿疾病诊疗专家共识:新生儿呕吐(2025年).pptx VIP
- 人工智能 智能体互联 第3部分:身份管理.pdf VIP
- 西子奥的斯电梯调试资料ALMCB-V3.2.ppt VIP
原创力文档

文档评论(0)