- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词频(nr ):自然语言中某一个单词在文献中或讲话中出现的次数(频次)。不同的词汇在同一篇文献中出现频次的分布是不均匀的。 词汇数(N):文献中出现的不同词的数量。即:文献中作者使用了多少个不同的词。 词次数(N’):文献的长度,总词量,包括同一词重复出现的次数。 北京语言学院语言教学研究所采用人工与计算机相结合的办法,对近200万字的汉语语料进行词频统计,编制了《现代汉语频率词典》,收词31159条,这是中国正式出版的第一部汉语频率词典。 * 信息计量学 主讲老师:王倩飞 济宁医学院 信息工程学院 第七章 科学信息的词频分布规律 信息计量学 第一节 齐普夫定律的形成背景 第二节 齐普夫定律的基本表达 第三节 齐普夫定律的修正与发展 第四节 齐普夫定律的应用领域 几个基本概念 科学 信息 是 由 符号 尤其 是 文字 有 规则 排列 而 形成 的,这种 规则 来自 思维 逻辑 与 语言 逻辑 两 方面。 信息计量学 第一节 齐普夫定律的形成背景 一、词频统计的产生和发展 1898年,德国学者凯丁编写了世界上第一部频率词典---《德语频率词典》。 美国教育学家桑代克编写了《教师两万词词书》(1921)和《教师三万词词书》(1944)。对英语词汇做了大量的频率统计工作。 我国近代教育家陈鹤琴(1892~1982)主持编辑了第一部汉语频率字典《语体文应用字汇》(1928) ,从554478个汉字中析出4261个单字。 第七章 科学信息的词频分布规律 频率词典(frequency dictionaries)——按词出现频率的高低而编排的词典。 第一节 齐普夫定律的形成背景 一、词频统计的产生和发展 第七章 科学信息的词频分布规律 信息计量学 二、语言学研究及启示 1916年,法国速记专家艾思杜在其从事的速记文字体系的改善研究工作中,观察到如下事实: 假定有一个包括N个词汇的文献集(N充分大)。按照这些词汇在文献集中出现的频次高低递减地加以排列,以频次最高的词,其顺序定为自然数1,频次第二的词,其顺序定为2,依次类推,频次最低的词为 。这样就得到一个词频表: nl … … nr … n2 n1 词频 r … 2 1 词的顺序 艾思杜发现词频与词序之积大致为一常数k,即nr * r = k。 第一节 齐普夫定律的形成背景 第七章 科学信息的词频分布规律 信息计量学 1928年,美国贝尔电话公司的物理学家贡东发现如下公式:他根据前人关于词频的统计资料,以横坐标表示词的序号的对数lgr,纵坐标表示词的绝对频率的对数lgn,描绘了下图。贡东发现,lgr和lgn的分布关系接近于一条直线AB。 C是否为一个常数? 直线AB与横坐标的夹角为α,经多次试验α=45度。 二、语言学研究及启示 第一节 齐普夫定律的形成背景 第七章 科学信息的词频分布规律 信息计量学 三、词频分布的机制 验证了贡东公式的正确性 C的取值 《人类行为与最省力法则---人类生态学引论》 第一节 齐普夫定律的形成背景 第七章 科学信息的词频分布规律 信息计量学 每一个人的运动,不管属于哪种类型,都是在一定道路上进行的,而且都将受一个简单的基本法则的制约,千方百计地选择一条最省力的途径。在各种运动中,人们也都有意无意地按照这个法则行事。齐普夫把这样一个他认为普遍存在的法则称为“最省力法则”(the Principle of least effort)。 三、词频分布的机制 第一节 齐普夫定律的形成背景 第七章 科学信息的词频分布规律 最省力法则 信息计量学 在语言词汇的选取上,表现为选择他最熟悉最能表达意思的词汇。齐普夫把词汇的选择过程,归结为“力”的作用结果,即选择词汇时,由于“单一化的力”的作用,使我们总希望用熟悉的词汇去表达所有的概念,但是事物概念的多样性,产生“多样化的力”,总要求词义的专指性。“单一化的力”使词频增加,“多样化的力”使词种增加,这两种力的平衡,使词频等级呈双曲线关系。 三、词频分布的机制 第一节 齐普夫定律的形成背景 第七章 科学信息的词频分布规律 最省力法则 信息计量学 任何一种语言,词汇出现的频率是有规律的。其总词汇量可能很大,但通常使用的词汇却占其中较少一部分,即“常用词”。这些词出现频繁,表意能力强。相应的,一些很少被利用的词成为“冷僻词”。齐普夫定律就是研究文献词频规律的最重要的成果。 三、词频分布的机制 第一节 齐普夫定律的形成背景 第七章 科学信息的词频分布规律 最省力法则 信息计量学 一、齐普夫定律的早期研究成果 第二节 齐普夫定律的基本表达 第七章 科学信息的
您可能关注的文档
- 机械能守恒定律及应用.ppt
- 基因功能分析的基本策略(二).ppt
- 技术与设计2第四单元控制与设计第二节控制系统的工作过程与方式.doc
- 3人教版九年级《第十一章多彩的物质世界第十二章运动和力》阶段检测卷及答案.doc
- 4.1地形对聚落及交通线路分布的影响限时练.doc
- 4.1五十年的变化(第2课时)67808.ppt
- 教学要求:了解CCS开发环境具有的功能,能够操作CCS的.ppt
- 教育的心理学视角与育人效果.ppt
- 4.2区域工业化与城市化—以我国珠江三角洲地区为例48629.doc
- 4.3河流地貌的发育教案第一课时.doc
- 2025年烟台市正大城市建设发展有限公司招聘工作人员12名笔试参考题库附带答案详解.doc
- 2025年衢州市属国企公开招聘工作人员笔试参考题库附带答案详解.doc
- 2025中铁四局集团有限公司法律合规部公开招聘1人笔试参考题库附带答案详解.docx
- 2025中国建筑股份有限公司岗位招聘【人力资源部(干部人事部)】笔试参考题库附带答案详解.docx
- 2025年滁州定远县中盐东兴盐化股份有限公司招聘2人笔试参考题库附带答案详解.doc
- DB1331T109-2025雄安新区建设工程抗震设防标准(963.84KB)(1).pdf
- 2025辽宁省能源控股集团所属抚矿集团招聘76人笔试参考题库附带答案详解.pdf
- 2024陕西延长石油集团华特新材料股份有限公司社会招聘8人笔试参考题库附带答案详解.pdf
- 2023内蒙古大唐国际锡林浩特矿业有限公司采煤自营专项社会招聘32人笔试参考题库附带答案详解.pdf
- 2024年12月云南大学国际合作与交流处公开招聘(1人)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
最近下载
- 个体防护装备配备规范.pdf VIP
- 尾矿库安全规程.docx VIP
- 工作场所有害因素职业接触限值 第2部分物理有害因素.doc VIP
- DX—TH2使用与维护说明书附图.doc VIP
- 危险化学品单位应急救援物资配备要求.pdf VIP
- GB30000.26-2013 化学品分类和标签规范 第26部分:特异性靶器官毒性 反复接触.pdf VIP
- 2025《速度、力度与常用音乐术语》大单元整体教学设计.docx
- GB 30000.28-2013 化学品分类和标签规范 第28部分:对水生环境的危害.docx VIP
- GB30000.27-2013 化学品分类和标签规范 第27部分:吸入危害.pdf VIP
- GB30000.25-2013 化学品分类和标签规范 第25部分:特异性靶器官毒性 一次接触.pdf VIP
文档评论(0)