面向现代汉语动态流通语料库的html+To+xml转换工具的设计和实现.pdfVIP

面向现代汉语动态流通语料库的html+To+xml转换工具的设计和实现.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
放射免疫学杂志

维普资讯 第 37卷 第 1期 内蒙古师范大学学报 (自然科学汉文版) Vo1.37No.1 2008年 1月 JournalofInnerMongoliaNormalUniversity(NaturalScienceEdition) Jan.2008 面 向现代汉语动态流通语料库的 htmlToxml转换工具的设计和实现 唐长宁,张志平,赵小兵 (内蒙古师范大学 计算机与信息工程学院.内蒙古 呼和浩特 010022) 摘 要:分析了目前 HTML与XML格式的特点及现有的htmltOxml转换软件的不足.给出面向现代汉语 动态流通语料库的htmlToxml软件的设计和实现过程.编码过程利用面向对象思想.使用Java编程语言.可以 实现跨平台运行.用测试用例对软件做了相应测试.达到了预期效果. 关键词:htmltOxml转换软件}动态语料库}XML;HTML 中图分类号:TP391.2 文献标识码 :A 文章编号:1001-8735(2008)Ol一0063一O4 随着互联网应用需求及其相关支撑技术的发展,XML(eXtensibleMarkupLanguage)已经成为互联网 环境中数据描述和网上应用系统间数据交换实事上的标准n].XML是一种元标记语言,用户可以定义 自己 需要的标记.它提供了描述结构化数据的格式,可以通过独立运行的方法来共享数据.与HTML相 比,XML 具有内容与形式相分离的特性,以及 良好的可扩展性、跨平台移植性和 自描述性等特性.当前Web信息大多 数都是 HTML(HyperTextMarkupLanguage)格式 ,由于具有简单 、易用等特点,所以目前被广为接受.尽 管作为信息的主要载体,HTML提供 了一种能方便地 向读者呈现信息的方法,但它可能并不是一个很好的 自动提取与数据驱动服务或相关应用程序 的信息机构. 动态语料库 (DynamicCirculatingCorpus,简称 DCC)是历时语料库,它与静态语料库和共时语料库是 相对而言的.这种语料库可以对语言的变化进行检测和监测[2],通过对语料库的分析,可 以观察到语言现象 的发生、发展和消亡.从 2001年开始,北京语言大学的现代汉语动态流通语料库 已收集整理了 15家主流报 纸的语料 ,约 15亿的语料 ,获得 的初始语料是 Html格式的,每年都要追加新的语料.对于我们的研究而言, 在 Html格式的文件中存在大量的垃圾信息(Html脚本语言、广告内容等),而垃圾信息过滤的质量直接影 响对语料计算的精确度和研究的可信度.语料库数据量庞大,采用人工去除垃圾信息是不可取的,所 以需要 一 个 自动转换软件实现 Html格式文件到 xml格式文件的转换,而且能够把原始语料中的垃圾信息去掉. 1 现有 htm1toxm1转换软件的不足 目前直接把 html格式文件转换为 xml格式的免费软件很少,这样 的软件都是科研部 门内部开发的,主 要用于内部研究,而且存在的缺点也很明显,只能够去除html格式文件中的部分垃圾信息.图1和图2是一 个免费转换软件转换前后的结果.从文本格式转换后得到的结果可以看到 以下一些特点:① 能够保留网页 的部分重要信息;② 基本能保留原来网页中的段落格式;③ 特殊的转义字符 (如 >)不能去掉;(4)转 换后的文中存在无关的文本内容(如 “图片桌面”). 2 转换软件的设计和实现 2.1 转换软件的要求 为以后研究的需要 ,在文件格式转换时,我们将 HTML\HML网页格式 的文件 中 所带的文件相关信息,如 “媒体名称(mediaName)”、“文件栏 目(nodeName)”、“文件标题(title)”、“作者 (au一 收稿 日期:2007一O6—22 基金项 目t国家 自然科学基金资助项 目 作者简介 ;唐长宁(1980~),男, 宁省丹东市人,内蒙古师范大学硕士研究生 ,赵小兵(1967一),女。内蒙古呼和浩特市人,内蒙古师范大 学教授 ,主要从事 自然语言信息处理技术研究.

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档