语料库基本知识.pptxVIP

下载本文档

22
0
约2.27千字
约 44页
2023-08-30 发布于江苏
举报
版权申诉

语料库基本知识.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

.;语料库(corpus，复数为corpora）一词来源于拉丁语，本意为body。一般情况下，语料库往往指的是一个“电子文本集”(a collection of texts stored in an electronic database) 。真正意义上，语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。以一个语料库为数据源(data source) 进行的研究可以看作是对该语料库所代表语肓、语言变体或文类的研究，研究所得到的结论可以推广到整个语言、语言变体或文类。;语料库(corpus)是语言材料的仓库，是计算机进行语言检索、比较、分析等处理的重要基础。(张普1999) 语言学名词审定委员会2011年推出的《语言学名词》中，对语料库的定义、作用及应用领域的阐述为：;对语料库语言学(corpus linguistics)的两种看法：;统计语言学;计量语言学;计算语言学;联系：都是涉及语言学、数学、统计学以及计算机科学等多个学科和领域，是典型的文理工交叉学科，具有鲜明的跨学科研究性质。研究对象都是自然语言组成的大规模语料库。研究工具都是利用计算机的软硬件。研究的理论基础是数学的概率统计知识和语言学的语音、词汇、句法、语义、语篇和语用知识。都可以对语言学的语音、词汇、句法和语义等层面进行统计和研究。;联系：统计语言学和计量语言学都是利用统计方法来实现对语言成分的统计，计量语言学以发现语言成分或语言成分间的数学规律为目标。而统计语言学以所统计的语言特征在统计学上显著和不显著为目标。语料库语言学对大规模语料库进行词汇、句法和语义等统计，依据统计数据和实例上下文对所研究的对象进行语言学层面定性的分析，是定量分析和定性分析的结合，以研究语言的结构和运用为目标。计算语言学以语言结构的理解与生成为研究目标，以统计和规则为基本研究方法。计算语言学的统计模型——隐马尔科夫模型、最大熵模型、条件随机场模型等和实现算法更复杂。;对“词”的定义，语言学界一直很难达成共识。我们暂且撇开语义问题，考虑一下当一个句子里出现两个it，它们应该被视作一个词还是两个词呢？形符(token) 类似于我们日常说的“词”(如一篇300词的作文)。句子A computer almost necessarily has a Keyboard and a monitor中共有10个形符( 即A, computer, almost, necessarily, has, a, Keyboard, and，a, monitor) 。这看起来似乎没有什么歧义，但是我们仍然需要考虑it’s是一个形符还是两个形符。语料库语言学中一般的处理方法是，对it’s，can’t等缩略词进行切分，使其成为it和’s 两个成分(can’t 切分为ca 和n’t 两个成分) ，这一过程被称作为分词(tokenization) 。换言之，语料库语言学中一般将it’s视作为两个形符。总形符数是语料库容量的最常用的测量单位。如英国英国国家语料库约有1亿词，说的就是该语料库中包含有约1亿个形符。;形符：在处理英语时，较为通用的做法是，把所有的单词视为“形符”。这里说的形符，大概有这样几种类型： 1、全部由英语字母构成（如computer 由8 个英文字母构成） 2、由数字或数字和字母构成（如3、1985、 21th、3D等） 3、除了数字和/或字母之外，还带有连字符（-） 4、带有英语26 个字母之外的外来字母（如德语中的音变） 5、部分符号(如、$等)。统计形符时，我们通常不把标点符号 (如逗号、句号等) 包括在内，但这一点有例外，如数字3.1415925和整数的千分位分隔符(如100，000) 中的逗号等。为了便于统计，对英语进行分词时通常在以上我们所说的“形符”后加空格，使得他们与文本中的其他形符或符号分离开来。;类符(type)作为一个统计量，指语料库文本中任何一个独特的词形(word form)。换言之，在一个文本中，重复出现的形符只能记作一个类符。以美国作家Gertrude Stein的作品Sacred Emily中的诗句Rose is a rose is a;所谓分词(tokenization) ，指将一连串的字符转换成相互分离、容易识别的形符(tokens) 的过程。在文本采集的过程中，由于文本来源不一，格式各异，文本内部存在很大的不一致性，如果不进行分词处理，一来容易导致检索困难，二来可能会使得语料库的频率统计出现误差，还可能会影响语料库的标注和后期加工。;汉语的分词比英语要复杂的多。;软件 filelist.ini，修改分词文件目录路径批处理;软件;.;.;.;.;索引，又称为“语境中的关键词”