- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
放射免疫学杂志
维普资讯
第 37卷 第 1期 内蒙古师范大学学报 (自然科学汉文版) Vo1.37No.1
2008年 1月 JournalofInnerMongoliaNormalUniversity(NaturalScienceEdition) Jan.2008
面 向现代汉语动态流通语料库的
htmlToxml转换工具的设计和实现
唐长宁,张志平,赵小兵
(内蒙古师范大学 计算机与信息工程学院.内蒙古 呼和浩特 010022)
摘 要:分析了目前 HTML与XML格式的特点及现有的htmltOxml转换软件的不足.给出面向现代汉语
动态流通语料库的htmlToxml软件的设计和实现过程.编码过程利用面向对象思想.使用Java编程语言.可以
实现跨平台运行.用测试用例对软件做了相应测试.达到了预期效果.
关键词:htmltOxml转换软件}动态语料库}XML;HTML
中图分类号:TP391.2 文献标识码 :A 文章编号:1001-8735(2008)Ol一0063一O4
随着互联网应用需求及其相关支撑技术的发展,XML(eXtensibleMarkupLanguage)已经成为互联网
环境中数据描述和网上应用系统间数据交换实事上的标准n].XML是一种元标记语言,用户可以定义 自己
需要的标记.它提供了描述结构化数据的格式,可以通过独立运行的方法来共享数据.与HTML相 比,XML
具有内容与形式相分离的特性,以及 良好的可扩展性、跨平台移植性和 自描述性等特性.当前Web信息大多
数都是 HTML(HyperTextMarkupLanguage)格式 ,由于具有简单 、易用等特点,所以目前被广为接受.尽
管作为信息的主要载体,HTML提供 了一种能方便地 向读者呈现信息的方法,但它可能并不是一个很好的
自动提取与数据驱动服务或相关应用程序 的信息机构.
动态语料库 (DynamicCirculatingCorpus,简称 DCC)是历时语料库,它与静态语料库和共时语料库是
相对而言的.这种语料库可以对语言的变化进行检测和监测[2],通过对语料库的分析,可 以观察到语言现象
的发生、发展和消亡.从 2001年开始,北京语言大学的现代汉语动态流通语料库 已收集整理了 15家主流报
纸的语料 ,约 15亿的语料 ,获得 的初始语料是 Html格式的,每年都要追加新的语料.对于我们的研究而言,
在 Html格式的文件中存在大量的垃圾信息(Html脚本语言、广告内容等),而垃圾信息过滤的质量直接影
响对语料计算的精确度和研究的可信度.语料库数据量庞大,采用人工去除垃圾信息是不可取的,所 以需要
一 个 自动转换软件实现 Html格式文件到 xml格式文件的转换,而且能够把原始语料中的垃圾信息去掉.
1 现有 htm1toxm1转换软件的不足
目前直接把 html格式文件转换为 xml格式的免费软件很少,这样 的软件都是科研部 门内部开发的,主
要用于内部研究,而且存在的缺点也很明显,只能够去除html格式文件中的部分垃圾信息.图1和图2是一
个免费转换软件转换前后的结果.从文本格式转换后得到的结果可以看到 以下一些特点:① 能够保留网页
的部分重要信息;② 基本能保留原来网页中的段落格式;③ 特殊的转义字符 (如 >)不能去掉;(4)转
换后的文中存在无关的文本内容(如 “图片桌面”).
2 转换软件的设计和实现
2.1 转换软件的要求 为以后研究的需要 ,在文件格式转换时,我们将 HTML\HML网页格式 的文件 中
所带的文件相关信息,如 “媒体名称(mediaName)”、“文件栏 目(nodeName)”、“文件标题(title)”、“作者 (au一
收稿 日期:2007一O6—22
基金项 目t国家 自然科学基金资助项 目
作者简介 ;唐长宁(1980~),男, 宁省丹东市人,内蒙古师范大学硕士研究生 ,赵小兵(1967一),女。内蒙古呼和浩特市人,内蒙古师范大
学教授 ,主要从事 自然语言信息处理技术研究.
您可能关注的文档
最近下载
- 2024年安徽省初中学业水平考试中考数学试卷(真题+答案).docx VIP
- 习概期末考复习测试附答案.docx
- GB 25194_杂物电梯制造与安装安全规范.pdf VIP
- 开放系统11846《商法》期末机考真题及答案(第110套).docx VIP
- 2025届苏州中考一模英语试卷及答案 .pdf VIP
- 2025年人教版七年级下册数学期中复习专题01 相交线与平行线(考题猜想,11种易错重难点与解题模型73题专项训练)原卷版.docx VIP
- 社区工作者考试300题附完整答案【各地真题】.docx VIP
- 七年级美术教案(人教版)全册.doc
- 2025青海省从优秀村(社区)党组织书记中考录乡镇公务员32人笔试备考试题及答案解析.docx VIP
- 欧盟新法规MDR培训.pptx VIP
文档评论(0)