- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个面向传统语言学研究的语料库一体化系统
一个面向传统语言学研究的语料库一体化系统
[摘 要]:在语言研究中,语料的收集和检索是一个很重要的问题。本文介绍了一个集成语料下载、网页内容解析、语料库信息抽取建库、语料信息检索等功能的语料库一体化系统,并详细阐明了其原理、功能和使用方法。该系统界面友好,功能强大、简单易操作,适合语言学研究者使用。
[关键词]:语料库系统、语料下载、网页内容解析、语料库信息抽取建库、语料信息检索
[中图分类号] [文献标识码] [文章编号]
语言学研究在很大程度上是依赖于材料的,材料的收集和检索是一个很重要的问题。以前基于“法不十不立”思想的材料个案枚举式方法显然已经不适合网络时代的语言学研究;由于语言学研究者大多是文科出身的,对计算机处理大规模数据的方法不是很熟悉,而且,单纯依靠计算机工作者的协作,又很难满足语言学研究者的个性化要求。因此,如何让语言学研究者能简单方便地构建自己的语料库,从而快速汇集大规模真实文本进行检索研究已经成为语言学研究中一个关键性的问题。
在近两年实践经验的基础上,我们完成了一个集成以上功能的语料库软件系统,系统界面友好,简单易操作,只需用户选择或输入一些参数即可构建自己的语料库及检索系统。
本文将在如下几个方面进行介绍:语料下载、网页内容解析、语料库信息抽取建库、语料信息检索。
1.语料下载
随着英特网的发展,网络资源日益丰富,建设超大规模平衡语料库已经变得非常简单易行。但网络的膨胀也带来了语料库建设的其他问题,那就是巨量数据的自动处理。如此丰富的网络资源显然不太可能靠人工来操作,因此网页自动下载、网页内容解析、语料库信息抽取建库及语料信息检索成为了一个高度自动化的语料库软件系统必须考虑的几个问题。
语料下载模块主要利用已有的下载软件完成语料的大规模自动下载。
鉴于网上已经存在性能优异的下载软件,我们没有自主开发网页下载软件模块。现行比较好的网络资源下载软件有Spidersoft公司出品的Webzip,它能够完整下载网站的内容,也可以选择自行设置下载的层数、文件类型、网页与媒体文件的定位以及网址过滤器,以便按己所需地获取网站内容,而且下载到本地硬盘中的网站内容将保持原本的 HTML 格式,其文件名与目录结构都不会变化,Webzip并支持断点续传与使用代理服务器,其他类似软件还有Teleport Pro。
我们要做的只不过是确定和生成下载目标网站的批量网页网址,比如某网站零四年六月二日的回顾网页网址为“ /news1000shtml”,那么依此类推,只要将置换成任意年月日,就以批量生成每一年每一月每一天的网页网址(Webzip有此批量添加功能),然后设定下载的层数(如当前页面和一层)、文件类型(html)及网址过滤器(以“news.tim”起始)。让电脑下载一个晚上,第二天早上我们就可以轻而易举获得巨量网页了(十万级网页个数)。
2.网页内容解析
自动获得大量网页数据后,由于网络上采集的网页是半结构化的,往往结构复杂,含有繁复的Html标记,语料信息湮没在芜杂的网页标记之中,而且网页缺乏相应的语义标记,无法直接提取文本结构内容。因此必须对已下载的网页进行内容解析,才能得到干净有效、分门别类的语料信息,去除冗余标记,格式化语料。
通常的做法是采取“剩余法”,即简单地去除所有Html标记,余下所有非标记字符。而一个网页往往承载了很多内容,如导航条、下载提示、搜索入口、热点推荐、广告、图片文字等等,太多的冗余文字占了很大比例;而且更重要的是这些剩下的文字不分内容类别,如标题、时间、正文等,眉毛胡子一把全堆在一起,无法进行过信息的定位抽取。这样既丢失了很多有用信息,影响后续处理质量,如词频统计。因此探求一种既最大限度保留有用信息又有效去除冗余标记文字的网页清洗和内容解析方法显得非常重要。
我们根据以往经验采用抽取法,不是过滤,而是提取有效信息。
Html有一套完整的语法命名规则,理论上应该可以根据Html标记语法来确定语料信息内容起止标志,如:
标题 title……/title
时间 date……/date
但由于网页模板各具风格,或者追求网页效果的原因,设计者并不遵循统一的标记体系命名原则,没有统一的网页标记代码,因此无法全自动确定文本提取内容锚点。
幸运的是,一个网站往往具有一个统一的网页模板,不会轻易更换,因而我们还是可以根据网页标记来确定语料信息抽取的前后起止标记。
如某网站语料信息抽取起止标记如下:
正文始!content正文终!content标题始title标题终/title栏目始/font首页栏目终正文时间始!time时间终 !time关键字始meta name=keywords 关键字终
您可能关注的文档
最近下载
- 汉语作为第二语言教学的教材课件.ppt VIP
- 2024年会计专业求职计划书.pptx
- 泵站安全培训课件.pptx VIP
- 公共艺术(基础模块)美术中职全套完整教学课件.pptx
- 特种设备生产单位落实质量安全主体责任监督管理规定学习解读教育课件.pptx VIP
- 01685《动漫艺术概论》历年考试真题试题库资料(含答案).pdf VIP
- 中国特色高水平高职学校和专业建设计划申报书——浙江工贸职业技术学院.pdf VIP
- 火力发电机组检修项目管理.pdf VIP
- 福州铜盘中学国防教育与音乐教育相结合的实践-国防教育论文-军事论文.docx VIP
- 学堂在线 中国建筑史——元明清与民居 章节测试答案.docx VIP
文档评论(0)