- 11
- 0
- 约1.15万字
- 约 62页
- 2016-04-11 发布于江苏
- 举报
文本获取和处理.ppt
第2章 文本获取与处理 主讲教师 胡永斌 数据单位 计算机存储数据时的最小单位是位(bit),一个bit可以存储一个二进制数。存储数据的基本单位是字节(Byte),简记为B。规定一个字节等于8个位,即1Byte=8bit。一个字节可以保存一个英文字符,一个汉字要占用两个字节。 计算机的存储器是以字节为单位,每个字节都有一个地址编码,通过地址找到某个字节来存取数据。由于二进制的原因,存储容量的倍数用千表示,千等于1024。1KB=1024B;1MB=1024KB;1GB=1024MB;1TB=1024GB。 文本的获取技术 1. 输入法的分类: 包括键盘输入法、手写输入法和语音输入法等。 2.键盘输入法按编码原理可分为: 音码输入法,如全拼、智能ABC、拼音加加、智能狂拼、谷歌输入法、搜狗输入法、QQ输入法等; 形码输入法,如五笔、郑码等; 音形码输入法,如二笔、自然码、一笔等; 模式识别(pattern recognition)是指借助计算机,就人类对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行自动模拟的科学技术。 文本识别技术 语音识别技术 手写识别技术 文本的获取技术 3.文字识别输入 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获
您可能关注的文档
- 宣传片《昆明兴中制药》.doc
- 对云锡集团公司职工教育培训思考.doc
- 对初中化学教科书再认识.ppt
- 对制约健跳加速城镇化四大症结问题思考.doc
- 对劳动密集型战略理论述述质疑.doc
- 对培根“知识就是力量”解读及当代启示.doc
- 对实验区高考化学科考试要求认识.doc
- 对我县市场中介组织调研报告.doc
- 对比型材料作文——好马和劣马.ppt
- 对比的分析和偏误的分析.ppt
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
原创力文档

文档评论(0)