基于词汇聚类方法的现代汉语分期与分期体系构建-计算语言学专业.PDFVIP

基于词汇聚类方法的现代汉语分期与分期体系构建-计算语言学专业.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词汇聚类方法的现代汉语分期与分期体系构建-计算语言学专业

基于词汇聚类方法的现代汉语分期与分期体系构建1 饶高琦,李宇明 (北京语言大学 北京市100083) 摘要:当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动 到1949 年、1950年到1966年、1967 年到1976年和 1977年至今四个时期,并在这一基础 上开展了许多研究。语言尤其是书面语虽然与社会政治生活有密切联系,但语言系统有其自 身的演化规律。从语言数据出发对语言进行分期是更加合适的选择。 本文将语言的分期问题视作历时语料的分期问题,进而成为历时文本的聚类问题。本 文工作基于历时报刊语料库遴选出的时间敏感程度较好的词汇。使用机器学习领域中广泛使 用的K 均值和期望最大算法进行聚类,以该部分词汇频率为特征对70 年跨度 (1945-2015 年)的历时报刊语料进行聚类,并在不同的聚类数量下绘制了具有层次性的词汇使用分期树。 构建了战后现代汉语的词汇层次分期模型,揭示了改革开放的开始作为二战后词汇使用变迁 最重要分水岭的地位。 关键词:现代汉语、分期、词汇、历时演变、聚类 Lexicon ClusteringbasedPeriodDividingofModern Chinese RaoGaoqi,LiYuming (BeijingLanguage andCultureUniversity,Beijing 100083,China) Abstract:State-of-art research tendtodividemodern Chineseinto4periodsaccordingtothepoliticalhistory:new culturemovement to 1949, 1950-1966, 1967-1976, and 1977tillnow.Though written language is quite influenced by the social and political movements, language evolve by its own pattern. Periods should be divided based on languagedata. In this paper, we regards the period dividing as a text classification problem. Based on the time sensitive wordsandits frequency as features,K-means andEM algorithm are carried out to cluster the corpusof 70years of “People’s Daily”. Hierarchical dividing system is formed and revealed the beginning of Reform and Open Policy asdividecrest ofwritten languageuseinthepast century. Keywords:Modern Chinese,perioddividing,lexicon,diachronicevaluation,clustering 1. 引言 现代汉语研究的基础问题是现代汉语的起源与变迁。如此则无法不涉及现代汉语的历时 分期问题。以往对现代汉语史的研究多直接借用政治史的分期方式将现代汉语分为新文化运 1 TYR17001J 本文研究受以下项目资助:北京市语言资源高精尖创新中心项目( )、北京语言大学校级项目 17PT05 16JJD740004 (中央高校基本科研业务费专项基金)( )、教育部人文社科重点研究基地重大项目 ( ) 动到1949年、1950 年到1966年、1967 年到1976年和1977年至今四个时期,并在这一基

文档评论(0)

wumanduo11 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档