- 0
- 0
- 约6.31万字
- 约 69页
- 2019-03-30 发布于上海
- 举报
基于历史信息的中文多层次句法分析研究 中文摘要
基于历史信息的中文多层次旬法分析研究 中文摘要
伴随着计算机综合能力的日益强大和互联网的迅猛发展,社会的信息化程度越来 越高,自然语言作为信息的重要载体,对它的计算机处理就显得格外重要。句法分析 是自然语言处理的一个基本问题。基于历史信息的句法分析模型将句法分析树的构建 转换为一系列的分类问题,由于其采用机器学习的方法,且与具体的语言和文法关联 较少,因此具有较强的灵活性和可扩展性。
本文基于统计的方法,提出了一种基于历史信息的中文多层次句法分析方法,在 正确分词的基础上,实现了一个包括词性标注、基本短语识别、深层句法分析的基于 词的句法分析系统。系统采用最大炮模型进行参数学习,在每层处理过程中,优先识 别出容易识别的组块,在此基础上根据更丰富的上下文信息循环进行复杂组块的识 别,直至识别出根结点。实验证明本系统取得了较好的性能。
本文还实现了基于词的句法分析树到基于字的句法分析树的转换,最终实现了一 种基于自动分词的句法分析系统,系统的分词准确率在 96%左右,在宾州中文树库测 试集 Section271-300 上,实验分析了系统的性能,并进一步分析了不同分词结果对句 法分析的影响。
关键词 z 自然语言处理,中文句法分析,历史信息,层次模型,最大娟模型
作者z 耿向好 导师z 朱巧明
英文摘要 基于历史信息的中文多层次句法分析研究
Research on Histozy-based Chinese Hierarchical Parsing Abstract
Wi也 the increasingly power of computer capacity and the fast development of the Internet,the informativeness of the human society is becoming higher and higher. As an important carrier of information,computer processing of natural language is critical 扭曲e information society. 刀山 paper focuses on syntactic p缸sing,the fundamental problem in
naturallanguage processing.
ηús paper follows history-based approaches,such 部也e one in (Ratnaparkhi 1999), and explores a hierarchical p町sing s回tegy by constructing a p缸se tree level by Ievel, which inc1udes part-of-speech tagging,phrase chunki吨, and 耐uc阳ral parsing. 币le
intuition behind our s位ategy 扭曲at simple constituents should be constructed frrst so 也at the complex ones can rely on richer contextual information in the following passes.ηús
is done as follows: given a forest of trees (especially at beginning ,each word is regarded as
a single tree),we recursively recognize simple constituents first and then form a new forest wi由a less number of trees until there is only one tree in the newly produced forest.
In addition,也is paper also integrates Chinese word segmentation into the hierarcical parsíng strategy.
Evaluation on the the Chinese Penn Treebank shows 也副 0町 hierarchical parsing strategy works well on 由e Chinese language and achieves compara
您可能关注的文档
- 基于生态经济功能区划的玛纳斯河流域绿洲生态安全评价-自然地理学专业论文.docx
- 基于未确知C均值聚类的绿色品牌诊断研究-管理科学与工程专业论文.docx
- 基于企业竞争力提高的建成集团人力资源管理研究工商管理专业论文.docx
- 基于区间直觉模糊集的语义相似度研究-图书馆学专业论文.docx
- 基于神经网络的电力系统短期负荷预测方法研究电力系统及其自动化专业论文.docx
- 基于决策树的中职学校考试成绩分析的应用研究-计算机技术专业论文.docx
- 基于免疫算法的TSP问题求解-电子与通信工程专业论文.docx
- 基于神经网络的静压PHC管桩单桩竖向极限承载力预测研究-建筑与土木工程专业论文.docx
- 基于网络编码的TCP协议(NCTCP)设计与研究-信息与通信工程专业论文.docx
- 基于数据挖掘的电信客户流失分析研究-计算机应用技术专业论文.docx
最近下载
- 2025年山东力明科技职业学院单招语文测试试卷大全.docx VIP
- 高考物理机械能常用模型最新模拟题精练专题31机械能+弹簧连接体+计算题(原卷版+解析).docx VIP
- 2025年湖南铁路科技职业技术学院单招职业技能考试题库及参考答案1套.docx
- 高考物理真题5年分类汇编专题10磁场(全国通用)(含解析).docx VIP
- 2025年成都七中自主招生物理试题 .pdf VIP
- 2025年城市管理协管员招聘考试(城市管理执法)历年参考题库含答案详解.docx VIP
- 保安服务方案 投标方案(技术标).doc
- 2024-2025学年人教版九年级上册化学期末专项训练:计算题(含解析).pdf VIP
- 【泰国投资促进委员会(BOI)】2025年投资促进项目申请指南.docx
- 陕西省09计价规则.pdf VIP
原创力文档

文档评论(0)