- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[文本获取与处理
第2章 文本获取与处理 主讲教师 胡永斌 数据单位 计算机存储数据时的最小单位是位(bit),一个bit可以存储一个二进制数。存储数据的基本单位是字节(Byte),简记为B。规定一个字节等于8个位,即1Byte=8bit。一个字节可以保存一个英文字符,一个汉字要占用两个字节。 计算机的存储器是以字节为单位,每个字节都有一个地址编码,通过地址找到某个字节来存取数据。由于二进制的原因,存储容量的倍数用千表示,千等于1024。1KB=1024B;1MB=1024KB;1GB=1024MB;1TB=1024GB。 文本的获取技术 1. 输入法的分类: 包括键盘输入法、手写输入法和语音输入法等。 2.键盘输入法按编码原理可分为: 音码输入法,如全拼、智能ABC、拼音加加、智能狂拼、谷歌输入法、搜狗输入法、QQ输入法等; 形码输入法,如五笔、郑码等; 音形码输入法,如二笔、自然码、一笔等; 模式识别(pattern recognition)是指借助计算机,就人类对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行自动模拟的科学技术。 文本识别技术 语音识别技术 手写识别技术 文本的获取技术 3.文字识别输入 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 常见软件包括汉王OCR,清华紫光OCR,尚书OCR等。 文本的获取技术 4.语音识别输入 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。 语音识别技术主要包括特征提取、模式匹配及模型训练三个方面。 4.语音识别输入 推荐软件 IBM ViaVoice Pro 简体中文版 Microsoft SDK 语音识别软件 文本的获取技术 5. 手写识别(Handwriting Recognize)输入法 手写识别是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程, 手写输入是人机交互最自然、最方便的手段之一。随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。 手写输入法需要配套的硬件手写板,在配套的手写板上用笔(可以是任何类型的硬笔)来书写录入汉字,不仅方便、快捷,而且错字率也比较低。 汉王手写板 汉王手写电脑领航系列A12A 实验内容 1.请写出你最喜爱的文本输入法,并分析其技术特性; 2.请扫描一张A4纸,并使用汉王ocr识别软件识别其文字; 3.利用IBM语音识别软件尝试对《荷塘月色》进行语音输入; 4.下载高中课文《祝福 》的文本,并对其按照课本进行排版。 * * * * * * * * * * * * * * * * * * * * * * * * * * (3)交互操作设计 指通过超文本中的菜单、按钮、超链接等机制实现检索词与文本块的链接关系以及导航功能,从而实现网状文本结构的搭建,如图2-19所示。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * 2、选择合适的字体和风格 选择合适的字体是不仅是一个技术问题,更是一个艺术创意。设计建议: ①中文字体要在考虑艺术性的基础上,考虑人的文字使用习惯,正式场合应用的文本要符合有关标准要求。 ②英文字体,应当尽量选择清晰易读的字体,避免使用难以识别的装饰型字体。 ③ 同一文本内容应采用尽可能少的字体,在必要时可利用斜体和加粗来调整显示效果;文本块的行间距要调整到令人愉悦的水平,太拥挤会给阅读带来很大困难。 ④ 文本标题应选择更显眼或者更清晰的字体,可通过改变颜色或增加背景效果等凸显标题。还可使用阴影样式。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * 3、图形文字和动画文字 图形文字和动画文字可为文字赋予更多的效果和艺术内涵,插入到文本中后可增加文本的表现力和艺术效果。处理图形化文字主要有三种途径: 1)用图象处理软件制作“艺术字”,如下图; 图2-20 图形文字举例 2)用动画制作工具设计制作相应的“动画字”或“3D字”; 3)通过图符/字体设计软件重新设计自己独特的专用图标
您可能关注的文档
- 技术服务合同书(2)(参考).doc
- 技术服务合同书(参考).doc
- [文化生活课程与教材分析.ppt
- 技术服务合同书A(参考).doc
- [金融融资与再融资.ppt
- [文化生活第五课第一框文化创新的源泉和作用.ppt
- [文化的继承与发展.ppt
- [金融市场学05.ppt
- 技术服务合同书参考(参考).doc
- [金融理财概论.ppt
- 白天晚上教学课件.ppt
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题带答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解一套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及完整答案详解1套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解1套.docx
- 2025年山东菏泽市事业单位招聘急需紧缺岗位目录(第一批)笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及答案详解1套.docx
- 画西瓜教学课件.ppt
最近下载
- 2025广西南宁市交通运输综合行政执法支队招聘编外聘用人员5人备考试题及答案解析.docx VIP
- 青少年航天知识竞赛题库及答案.docx
- 环氧地坪施工工艺流程.docx VIP
- DB 34T 2752-2016 用人单位职业病危害现状评价导则.docx VIP
- 2025年高考全国1卷读后续写讲评课件 -2026届高考英语一轮复习专项.pptx
- MiniMk8调试与接线资料.pdf VIP
- 五菱宏光MINIEV说明书.docx VIP
- 2024初中物理教师进城考试模拟试卷及参考答案.pdf VIP
- 秦-使用手册-20131215.pdf VIP
- 四库全书基本概念系列文库:遵义府志.pdf VIP
文档评论(0)