- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
沈阳航空工业学院硕士学位论文摘要
沈阳航空工业学院硕士学位论文
摘要
专利文献是记载和传递各类科技成果的信息载体,是世界上最大的技术信息源。如 何充分地利用如此巨大的信息资源,使专利在科研和专利业务的诸多方面发挥重要作 用,针对该问题,专利信息处理系统应运而生。在中文专利信息处理系统中,专利分词 是一个重要的基础环节,专利检索及专利翻译等应用都需以专利自动分词作为基础。
目前国内汉语自动分词的研究主要集中在新闻语料上,比较成熟且实用的分词系统 针对新闻语料的分词效果很好,然而对专利语料的分词效果却不是很理想。本文针对专 利文献自动分词的困难及专利文献的特点,提出了一种基于统计和规则相结合的分词方 法。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效 地解决了专利分词中未登录词难以识别问题。实验结果表明,该方法在开放测试下取得 了较好的结果,对未登录词的识别也有很好的效果。
针对监督学习方法需要大规模同源训练语料,及通过调节窗口大小获取词的上下文 信息的不足,本文将大规模语料中的高频稳定的词和切分文本的上下文信息作为辅助特 征,引入到基于条件随机场的分词系统中,从而提出了一种将无监督分词信息融入条件 随机场的分词方法。与当前主流分词方法在专利语料上的对比实验结果显示,该方法解 决了训练语料不足的问题,并从统计上获得了更多关于词的边界信息,使分词的性能提 升了大约7个百分点。
在分析专利中术语构词特点的基础上,针对专利中词组型术语隐含的层次结构,本 文对词组型术语的多层次切分进行了探索性研究。
关键词:中文分词;专利文献;机器学习;上下文信息;条件随机场
沈阳航空工业学院硕士学位论文Abstract
沈阳航空工业学院硕士学位论文
Abstract
As the information carrier of recording and transmitting various science and technology productions,patent documents are also the largest technical information sources.For solving the problem that how to use it to make the patents play an important role in many aspects of the research and patent business,patent information processing system emerges.Patent documents word segmentation is an important fundamental part in Chinese patent information processing system,information processing applications such as patent retrieval and patent translation should be based on the patent word segmentation.
Now,research on Chinese word segmentation concentrates on news text,the state’of-the-art system can obtain high segmentation result in news text,but not ideal in the patent corpus.Aiming at the characteristics and difficulty of automatic segmentation of the patent documents,this thesis presents an approach for word segmentation based on statistics and rules·This method fully utilizes the global information from a large scale corpus and the context information of the segmenting text,and solves in effect the problem of the unkrlown words difficult to identify in the patent word segmentation.The experimental results indicate that this method achieve
您可能关注的文档
- 马铃薯块茎休眠期相关QTLs定位-蔬菜学专业毕业论文.docx
- 马克思主义阶级分析理论梳正及时代化思考-科学社会主义与国际共产主义运动专业毕业论文.docx
- 抗滑建筑桩基承载机理与适用性研究-水利工程专业毕业论文.docx
- 螺芴为核的吡咯并吡咯二酮类非富勒烯型受体材料的合成及光伏应用-高分子化学与物理专业毕业论文.docx
- 面向不平衡负荷补偿的SVC的研究与设计-电力系统及其自动化专业毕业论文.docx
- 黄芪总苷对实验性糖尿病动物心肌的保护作用及机理研究药理学专业毕业论文.docx
- 民办幼儿园可持续发展的理论反思-教育学·教育学原理专业毕业论文.docx
- 面向功能的创新概念设计问题研究-计算机应用技术专业毕业论文.docx
- 慢性轻度应激致损伤及7-oxo-DHEA干预机制研究-神经药理学专业毕业论文.docx
- 抗猪IgG单克隆抗体的制备和标记-预防兽医学专业毕业论文.docx
- 面向专利文献的中文分词技术的研究-计算机应用技术专业毕业论文.docx
- 黄河流域初始水权分配研究-热能工程专业毕业论文.docx
- 米渣蛋白成分分析及蛋白提取研究-应用化学专业毕业论文.docx
- 罗马帝政时期刑罚制度研究-法律史专业毕业论文.docx
- 考虑环保成本的输电规划研究-电力系统及其自动化专业毕业论文.docx
- 梅贻琦与赫钦斯教育思想比较研究-专门史专业毕业论文.docx
- 面向国有企业的BPR及抚顺石化公司再造研究-管理科学与工程专业毕业论文.docx
- 面向设计重用的船舶传动装置设计知识管理技术研究-机械制造及其自动化专业毕业论文.docx
- 民国新粉彩瓷器初探——有关历史背景、艺术创新、发展历程的研究-考古与博物馆学专业毕业论文.docx
- 民国时期江南灾害信仰研究-专门史专业毕业论文.docx
原创力文档


文档评论(0)