- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语言语言学及其功用——宏观鸟瞰
词汇相似度与汉语方言距离计算
Søren Wichmann 冉启斌
ranqibin@126.com
1
• 北京语言资源高精尖创新中心项目子课题,“语言识别理论及语言数
量统计的方法论研究”( KYR17018 )之“基于词汇距离计算的语
言分类研究”
• 感谢中国社会科学院民族学与人类学研究所江荻研究员对本项目的大
力支持!感谢南开大学汉语言文化学院硕士生梁煜珠、孙越,本科生
许可等在数据提供与收集方面所做的工作。
2
• 语言词汇距离的计算:
• ASJP (相似性自动判断程序)数据库:Søren Wichmann等
• /
• 每种语言收录斯瓦迪士核心词表最稳定的40个词的语音形式
• 7655种语档(doculects)
的材料,按ISO639-3有5067
种不同的语言
• 示例:dataset.xls;
• listss18.txt
3
• 距离计算:
• Levenshtein编辑距离(LD。1965):删除,插入,替换
• rapt → rap → jap → jaip
删除 替换 插入
• 3步 → LD = 3
4
• LDN距离(LD Normalized。归一化莱文斯坦距离)
• LDND距离(LDN Divided。
• 归一化莱文斯坦距离商)
• 1-LDND:相似度
• 世界语言分类树图
• WorldLanguageTree-004 (2013)
12
• 语言年代学(chronology) 10
8
• 语言的迁移速率(~1/3 km/year during 6000-2000 BP)
6
4
• 寻找语言分化的发源地点(homeland)
2
0
6000 5000 4000 3000 2000 1000 0
• 史前语言研究(linguistic
您可能关注的文档
最近下载
- 部编版小学语文四年级上册教学设计(全册新教材).docx VIP
- 环境工程设计-水泥厂除尘.doc VIP
- 智慧树知到《创新创业与管理基础(东南大学)》章节测试答案.docx VIP
- 2022年甘肃省兰州市中考英语一诊试卷(含解析).docx VIP
- 大学生职业生涯规划模板-舞蹈表演 完整版.docx VIP
- 乐陵市市直医院招聘考试题库.pdf VIP
- 大学生职业生涯规划.pdf VIP
- 第四单元:百分数、分数、小数、比综合转化专项练习(学生版+解析)-2024-2025学年六年级数学上册培优精练(北师大版).docx VIP
- 2024现代化数字灌区建设技术指南.pdf VIP
- 京东直通车售前客服岗位人才认证(初阶)考试答案,JD自营初级售前客服精品.pdf VIP
原创力文档


文档评论(0)