网站大量收购独家精品文档,联系QQ:2885784924

数字文本处理的基础舒明全.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字文本处理的基础舒明全.ppt

数字文本处理的基础;数字文本的概念 ;数字文本的特征;数字文本的分类;数字文本的格式 ;数字文本的基本格式;可编辑的文本格式;CSV 格式(纯文本文件) 特点:它的数据项(对应于表格的列)之间用逗号隔开,各条记录(对应于表格的行)之间用“换行”和“回车”隔开。 可以被任何文本编辑器调用,如记事本、写字板。默认打开方式是MS Excel,而MS Excel是和多种数据库相通的,因此,CSV本身也能被一般的数据库调用。 优点:可用任何文本编辑软件编辑、修改;文件体积很小、便于携带 。 ;DOC格式 使用Microsoft Word 或WordPerfect for Windows创建和打开的。 优点:DOC格式可以在文件中嵌入图表、图片、数学公式,建立超链接等。 缺点: 由于文件中包含了字体信息、段落格式、文字色彩、页眉页脚等信息,文件体积相对纯文本文件较大。 DOC格式保密,且不开放源代码,因??,其他公司的字处理程序都无法识别微软的文档。 DOC格式文件版本向下不兼容。新版本的Office用了老版本不支持的新格式,所以Office的用户必须升级(即使你并不需要什么新功能),从而提高用户成本。; RTF格式是由Microsoft创建的,RTF文件的组成包含控制字、控制符以及表明文档属性的组。使用Microsoft Word打开。 优点: RTF格式文件容易识别。 RTF格式文件可以在不同程序和同一程序不同版本之间传递数据,且它的格式信息不会丢失或破坏。 RTF格式文件具有很强的编排功能,可以实现文字和各种插入对象的混排,文字也可以实现各式各样的格式编排。 缺点: 内容繁多。控制字太多,增加了文档编写的难度。 RTF格式赋予作为控制符的字符特殊含义,使其作为文本出现时容易产生混乱。;WPS格式 ; HTML格式 1989年诞生于欧洲核子研究中心,是W3C协会专为World Wide Web而设计的,专用于Web页的开发。可用专门的HTML编辑器或Frontpage、Dreamweaver等网页制作工具进行编辑,通过Navigator、Internet Explorer等浏览器显示文本、图形和其它的任何内容。 优点:简单和统一。 缺点: ①可重用性差;②信息交互的局限性;③扩展性差,无法支持精确查询;④处理能力差,影响效率;⑤固定的标签集合;⑥对特殊字符的支持不够 ;SGML格式 ; 可扩展标识语言的简称,W3C于1998年初推出的一种用于标识数据格式的标识语言,是一个基于SMGL上的简单、灵活的文本格式,将SGML的丰富功能与HTML的易用性结合到Web应用中,保留了SGML的可扩展功能。主要有如下要素:Schema(模式)、XQL(基于XML的查询语言)、XSL(可扩展样式语言)和XLL(可扩展链接语言)。 XML可在任何平台和操作系统上运行,具有以下特点: 灵活简单,能把显示格式从文档中分离出来,另存放在样式表中。 扩展性良好。 具有自解释性。 良好的共享性。 强大的超链接机制。 ;PS格式 ;CAJ格式;VIP格式;IFR格式 ;PDG格式 ;CEB格式 ;EBK格式 ; 美国微软公司开发的软件Microsoft Reader的一种专有的文件格式,只能使用Microsoft Reader来阅读。 优点: 支持全屏阅读。 没有滚动条,翻页全部使用点击页码来实现,像看一本真正的纸质书。 缺点: 不支持与HTML相关的各种技术,只是支持图片的浏览。 对中文支持得不是很好。;WDL格式 ;TeX/LaTeX /CteX格式 ; 当然文本数据格式除了以上常用的格式以外,还有其他一些不太常用的格式,如OEB、WRI、TTZ、PPT、KDH、PDB、PRC、RB、SETEXT、CyberBook、Rocket eBook(.RB)、PocketPC等。; 文本格式的标准 ;文本的标准格式: PDF;PDF文件结构;PDF文件构成;PDF文本示例; 特点;优点;数字文本的处理流程 ;;数字文本的处理流程 ; ;图示说明;数字文本采集;自动输入分为手写板输入法、语音输入法、扫描输入法。 手写板输入法:利用压敏或磁感应等方法识别文字信号,被计算机接收后再在显示器中显示。 语音输入法:利用语音识别手段将人们读书的声音通过麦克风输入计算机,由计算机分析判断整理出人们读出的内容,并用文字形式显示出来。 扫描输入法:利用扫描仪、数码相机等外围设备将印刷型或手写体的文字转换为数字信号输入计算机,此方法输入的文字是以图像的形式出现的,再利用识别软件转换为人们常用的文本文字。; 文本下载: 下载分为电子资源下载和网页下载两种。 电子

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档