- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华
华 中 科 技 大 学 硕 士 学 位 论 文
I
I
摘要
互联网中日益庞大的海量信息给信息处理带来了极大的挑战,尤其是在中文信 息处理领域,其中最为重要的一个就是对中文分词技术的要求。中文分词的主要目 的就是将中文语句解析为具有正确含义的词语的组合,从而使得计算机可以理解句 子的意义,信息索引、自动摘要、文本分类、自动聚类、文本纠错、手写输入、智 能应答等各个领域中对信息处理的第一步都是中文分词,所以加强对中文分词技术 的研究具有极为重要的意义。
本文运用条件随机场统计模型将中文分词中的词语切分问题成功转换为汉字的 组合构词问题,主要是引入了汉字词位的概念,通过对汉字词位的标注使其能够依 照词位组合的规则进行词语合并,整个过程通过机器学习训练的方法加以实现,不 仅提高了分词的准确度,还能使分词工作摆脱对词典的依赖。
本文运用 JAVA 语言实现了基于条件随机场的分词系统,首先对真实语料库特征 信息进行统计,建立了可扩展可维护的特征信息库,然后运用 viterbi 算法对词位序 列求最优解,在实现 viterbi 算法的过程中引入了规则限制以去掉无效的组合,从而 降低了 viterbi 算法的计算量。在实验阶段,运用真实语料库进行训练和测试,并编 写了高效的性能评测算法对系统的分词结果进行分析。本文的研究方法可以通过汉 字的词位组合规律来识别未登录词,从而可以在未登录词的识别问题上做更进一步 的研究。
关键字: 中文分词,条件随机场,机器学习
II
II
Abstract
The increasingly large information on Internet bring a great challenge to the information processing, especially in the field of Chinese information processing, one of the most important requirements is the Chinese word segmentation, which the main purpose is resolve the Chinese sentences to the words combinations correctly to make them understandable for computers. In many information processing fields, including information index, summarization, text categorization, automatic clustering, text correction, handwriting input, intelligent response, the Chinese word segmentation is the first step, so to strengthen the research of Chinese word has becoming very important.
This paper converts the word segmentation problem to the combination of morphological characters successfully by using conditional random fields static model which introduces of the concept of Chinese characters position in a word. This make it can consolidate the characters by the rules of positions consolidation, the process is complemented through machine learning approaches, which not only improves the accuracy of segmentation, but also make the segmentation could get rid of dependence on the dictionaries.
In this paper, the experiments are implemented by using JAVA language, firstly static the feature information in corpus and establish an extendable informat
您可能关注的文档
- 基于系统动力学的网络舆论传播模型研究-管理科学与工程专业论文.docx
- 基于物理内存获取的在线取证的可信性分析-计算机应用技术专业论文.docx
- 基于投影栅法的几何量测量技术-光学专业论文.docx
- 基于神经网络的核电机组热力系统故障诊断-热能工程专业论文.docx
- 基于神经网络和模态分析的连续梁桥损伤识别-交通运输规划与管理专业论文.docx
- 基于所指示与所指谓的同义词研究-外国语言学及应用语言学专业论文.docx
- 基于视觉系统与视觉心理理论的家用炊具设计研究-设计艺术学专业论文.docx
- 基于生态足迹理论的哈尔滨市生态化发展评价与对策研究技术经济及管理专业论文.docx
- 基于内部控制的XXX公司采购业务处理模型(BPM)优化设计-会计专业论文.docx
- 基于农业多功能视角下的南平乡村旅游发展研究-农村与区域发展专业论文.docx
- 2025年事业单位笔试-湖北-湖北影像医学与核医学(医疗招聘)历年参考题典型考点含答案解析.docx
- 2025年事业单位笔试-湖南-湖南心理学(医疗招聘)历年参考题典型考点含答案解析.docx
- 2025年南昌影视传播职业学院单招笔试综合素质试题库含答案解析(5卷).docx
- 注册安全工程师考试锅炉压力容器内容.docx
- 2025年东营职业学院单招笔试职业能力测验试题库含答案解析(5卷).docx
- 2025年三亚中瑞酒店管理职业学院单招笔试语文试题库含答案解析(5卷).docx
- 2025年事业单位笔试-海南-海南西医临床(医疗招聘)历年参考题典型考点含答案解析.docx
- 2025年综合类-放射医学技术(师)-放射医学技术综合练习历年真题摘选带答案(5卷).docx
- 2025年中级卫生职称-主治医师-疾病控制(中级)[代码:361]历年参考题典型考点含答案解析.docx
- 2025年四川文化传媒职业学院单招笔试语文试题库含答案解析(5卷).docx
原创力文档


文档评论(0)