- 38
- 0
- 约5.06千字
- 约 11页
- 2018-08-29 发布于福建
- 举报
基于搜索引擎中文歧义词收集系统研究
基于搜索引擎中文歧义词收集系统研究
[摘要]本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Irttemet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词住置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结呆难以对比的问题。
[关键词]搜索引擎;歧义词;语料收集
DOl:10.3969/j.issn.1008-0821.2010.06.036
[中图分类号]TP391 [文献标识码]A [文章编号]1008―0821(2010)06―0125―03
黑格尔曾经说,中国语言是那样不确定,没有连词,没有格位的变化,只是一个字一个字并列着,所以在中文里的规定(或概念)停留在无规定(或无确定性)之中。
以汉语(Chinese Lanugage)为代表的中文是世界主要语言之一,也是世界上使用人数最多的语言。除了中国大陆、香港特别行政区、澳门和台湾以外,汉语还分布在新加坡、马来西亚等地,甚至日语、韩语中也有大量的汉语字词。以汉语为母语的人大约有13亿,还有3000万人把汉语作为第二语言。汉语作为世界特有的象形文字语言,文字高度统一、规范,现代汉语有统一和规范的语法,尽管方言发音差异特别大,但是书面语言规范,不存在方言差异造成的书面交流障碍。汉语的超方言性对维系中华民族的统一起了巨大的作用。
世界上计算机存储的信息80%以上是英文。汉语作为一种“表意”文字,与以英语为代表的“表音”文字分属完全不同的语系。汉语是联合国的工作语言之一,形象生动、千变万化的汉语对于二进制的计算机系统而言显得过于复杂,因此在信息管理过程中汉语就会产生诸多歧义。为了让中文成为世界性语言、成为科学的计算机语言,势必要解决中文在计算机识别中的词组分隔、歧义消除即分词消歧等问题。本文试图对现有分词消歧算法的局限性进行分析,并试图构建具有广泛性和普适性的基于搜索引擎的中文歧义词收集系统,力图为中文的计算机自动识别提供更科学合理的技术保障。
1 现有分词消歧研究的局限性
对中文信息处理而言,中文分词是基础性的工作。这主要是因为中文和西文的语法、词法、书写习惯等不同造成的。西文的基本文字单元是字母和单词,在西文书写过程中,连续的单词之间用空格分割,因此在其信息处理过程中就不存在分词问题,更不存在语意分歧。但是中文的基本文字单元是字,由字再组成词,而且词还有单音词与合成词之别;中文的书写也没有空格习惯,中文书写时字与词之间、词与词之间不存在明显的分隔标记,因而造成了中文信息自动化处理过程中独特的分词困扰,进而导致了各种语意分歧。
对于中文分词,研究人员提出了很多方法,取得了较好的效果,但仍有不少问题困扰着研究人员,歧义词问题就是其中之一。目前,对中文分词消歧的研究主要集中在消歧算法的设计和改进完善,对分词消歧测试样本的收集系统研究,目前尚未见到公开报道。在分词消歧算法的测试中,大部分研究人员选用的测试样本都存在数量少、内容单一等问题,或者所用样本基本相同,或者通过综合公开发表论文中的测试样本进行测试。
在当前的消除歧义词的研究中,主要存在如下局限:
1.1 样本单一,效率低下,测试内容交叉重复
进行中文分词消歧研究时,必须具备大量的供测试之用的中文语言样本,即测试语料。测试语料比较难以获取,要么取样范围狭窄,不具备广泛性;要么测试方法单一,缺乏权威性。据梁南元先生统计,在30812个词组成的中文材料中,歧义字段只有1204个(其中包括686个组合歧义字段和518个交集歧义字段),占总词数的3.9%。而且在进行分词测试时,研究人员都是各自去准备歧义字段作分词消歧算法的测试样本,造成了大量的重复性劳动,降低了工作效率,提高了研究成本。
1.2 各自为政,闭门造车,系统测试与技术开发混为一团
每个研究团队各自准备自己的分词消歧测试样本,并对自己所提出的分词消岐方法进行测试,既是裁判员又是运动员。从软件工程,特别是软件测试实践的角度而言。这并不是科学的方法。首先,在软件测试实践中,必须选择各种有代表性的语料样本,进行大量的有针对性的单元测试。单元测试作为独立单一的抽样调查,是一种基础性研究,为系统研究提供素材。其次,在软件测试实践中,要进行反复的集成测试工作。在单元测试的基础上,为了提高系统应用的普及性,还必须随机抽取不具有代表性的语料样本多次进行集成测试,集成测试样本要具有适应性和广泛性。最后,在软件测试实践中,一般还要将测试人员和开发人员分离,以保持测试工作的独
原创力文档

文档评论(0)