- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Android图片文字朗读软件盲人电子眼
基于Android图片文字朗读软件盲人电子眼摘要:针对盲人阅读困难的问题,开发了一款基于Android的应用软件,主要采用了OCR和TTS技术。OCR技术用于识别图片中的文字,并转化为文本,TTS技术用于朗读文本中的文字。软件安装在Android手机系统中,通过手机摄像头拍摄文字图片,OCR识别图片中的文字,并将图片文字转成文本文字, TTS将文本文字朗读出来。实际应用显示,软件对图片文字有很好的识别率。
关键词:OCR技术;TTS技术;Android;二值化聚类的图像文字提取算法
中图分类号:TP317.4文献标识码:A文章编号:16727800(2012)008009603
基金项目:中南民族大学大学生科研创新基金项目(KYCX110405Z);中南民族大学中央高校基本科研业务费专项资金项目资助(CZY11007)
作者简介:余佳(1990-),男,中南民族大学计算机科学学院本科生,研究方向为计算机技术;黄智超(1990-),男,中南民族大学计算机科学学院本科生,研究方向为计算机技术;蒋端保(1989-),男,中南民族大学计算机科学学院本科生,研究方向为计算机技术;梁治峰(1989-),男,中南民族大学计算机科学学院本科生,研究方向为计算机技术;杨兵(1990-),男,中南民族大学计算机科学学院本科生,研究方向为图像处理;帖军(1976-),男,中南民族大学计算机科学学院副教授,硕士研究生导师,研究方向为移动计算、分布式系统。(本文通讯作者为帖军副教授)
0引言
图片文字朗读技术是一种通过语音展示图形文字的技术。全世界共有几千万盲人,这些人因为先天或后天原因不能正常进行阅读。本技术就是为了解决盲人眼睛上的障碍,经过识别文字,提取文字,朗读文字,最终解决盲人在生活和学习中的问题。
本文探讨了在Android系统中将图片文字通过OCR技术转换成文本文字,再通过TTS朗读技术朗读文本文字。下面是对涉及技术的诠释:
(1)OCR(Optical Character Recognition,光学字符识别)技术。采用光学方式将文档资料转换成原始黑白点阵的图像文件,通过图片预处理、图片灰度化、图片的二值化、长直线剔除、背景剔除和文字提取模块,就可以实现从图像中抽取文字功能。
(2) TTS——文字转语音技术。分为文本分析模块、韵律控制模块、语音合成。文本模块包含分析文本中词与短语的边界,分析文本结构等。韵律控制模块基本采用数据驱动方法来确定文字的朗读韵律和节奏,语音合成现在基本采用波形拼接(PSOLA)技术来完成语音合成。软件模块如图1所示。
图1软件模块
1算法研究
主要探讨OCR技术,在研究中采用二值化聚类的图像文字提取算法。二值化聚类的图像文字提取算法分为图片预处理、文字聚类等步骤。
1.1图片预处理
设输入的图片的数据为F(x,y),其中x,y为正整数,其中x,y为图片的宽度和长度的量。设F(i,j)为图片中的某一个点,其中i,j满足下面两个条件:①0<=im, 0<=jn;②0<=Rij,Gij,Bij<=255。
下面就是对图片进行预处理,预处理的作用是对图片进行的加工和修正,便于后续工作的开展。
1.1.1图片灰度化
可以通过下面的式子计算出各点灰度的值:
g=0.229*R+0.587*G+0.114*B
(1)但是上面的式子中出现了浮点数的运行,图片处理是一项运算比较大的处理过程,因此我们对上面的式子进行转化,如下式:g=(77*R+151*G+28*B+128)/256
(2)通过对比可知,转化后的公式更简单,去掉了复杂的浮点运算,因此在运行的过程中,在图片与处理的工程中,转化后的公式运行速度更快,降低了对手机的运算能力要求。
1.1.2图片的二值化
经过图片的预处理后,图片中所有的点的灰度值只具有一个值,并且这个值的取值范围在0~255。图片的二值化是使用一个阈值,大于阈值的置为1,小于阈值的置为0。阈值的确定,现在有两种方法,动态确定和静态确定,动态确定是根据每个图片的灰度直方图来确定该图片的阈值,每个图片的阈值不尽相同,而静态确定是由程序员来确定一个阈值,不同的图片,使用统一的阈值。两种阈值的确定方法产生的效果也不一样,在本研究中,采用了静态确定的方法,经过多次实验,采用190作为阈值,大于190的置为1,小于190的置为0,阈值化后,图片二值化了。
1.1.3长直线剔除
因为聚类算法是将距离较近和颜色相同的点归为一类,所以长线会影响本算法的正确率。需要长线剔除的原因有两个:①两个字之间会因为长线的存在导致在后面聚类算法在文本聚类的过程中分辨不出是两个文字还是一个文字,所以要进行长线剔除;②长直线的存在会影响聚
您可能关注的文档
- 城市改造中文化遗产保护现状.doc
- 城市文化品牌探究及建设.doc
- 城市新区规划优化策略浅谈.doc
- 城市旅游在中国-探究回顾及发展展望.doc
- 城市旅游地旅游安全可拓性测度模型构建.doc
- 城市旧城改造项目几点建议.doc
- 城市景观园林建设中人性化理念探析.doc
- 城市星级饭店空间分布影响机制.doc
- 城市景观-儿童乐园及中心公园结合.doc
- 城市桥梁设计荷载标准应用探究.doc
- 养老评估师中级行为面试题库及案例分析.docx
- 面试培训督导时考察其课程理解能力的题目.docx
- 税务专员面试中关于增值税政策的常见问题解答.docx
- 2025宁波市医疗保障局局属事业单位宁波市医疗保障基金管理中心招聘事业编制工作人员1人备考试题附答案.docx
- 2025咸宁市汉口银行咸宁嘉鱼支行招聘笔试历年题库附答案解析.docx
- 2025北京人才发展战略研究院招录笔试备考题库附答案.docx
- 2025四川成都市龙泉驿区青台山中学校秋季教师招聘22人笔试试题附答案解析.docx
- 2025台州市银龄讲学计划教师招募13人笔试参考试题附答案解析.docx
- 2025中国铁建公开招聘42人笔试题库附答案.docx
- 2025中智咨询研究院社会招聘笔试参考题库附答案.docx
最近下载
- 汉堡男孩课件.ppt VIP
- 减压孔板自动计算.xls VIP
- 美术绘画工具介绍课件.pptx VIP
- 高考数学解答题(新高考)数列求和(裂项相消法)(典型例题+题型归类练)(解析版).pdf VIP
- 装饰设计公司经营管理制度.docx VIP
- IPC-7352_2023 Generic Guideline for Land Pattern Design连接盘图形设计通用指南.pdf VIP
- 新公司法下国有企业治理结构创新研究.docx VIP
- 电影预算示例表格(300万左右).doc VIP
- 中学生心理健康诊断测验(MHT).docx VIP
- 国家综合性消防救援队伍知识试卷及答案.doc VIP
原创力文档


文档评论(0)