- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Java Web开发中中文乱码问题研究和解决方法
摘要:从介绍Java常用字符编码集入手,详细分析 了在Java Web开发中产生中文乱码的原因,并针对原因提 出了可行性解决方法。
关键词:Java Web开发;中文乱码;字符编码集
中图分类号:TP311. 10
1引言
Java编程语言具有面向对象、可跨平台运行和分布应用 等特点,因此使得Java语言成为主流的网络编程语言。而 对于网络程序开发者来说,中文乱码问题是个由来已久和让 人头疼的问题。探究其原因,在Java Web开发或是Web程 序运行过程中,数据通常会通过Web服务器在应用程序和数 据库中进行来回传输,而Web服务器,应用程序和数据库中 都有可能使用不同的字符编码集,这就导致了中文乱码问题 的频繁出现。本文主要介绍Java Web应用中常用字符编码 集,并分析了中文乱码产生的原因以及针对原因提出可行性 的解决办法。
2Java常用字符编码集
ASCII ,全称为:American Standard Code for
Information Interchange (美国信息互换标准代码),是一 种包括数字、字母、通用符号、控制符号在内的字符编码集。 ASCII码是一种7位二进制编码,能表示27=128种国际上最 通用的西文字符,是目前计算机中,最普遍使用的单字节编 码系统。ASCII码包括数字“0” - “9”、26个大、小写英 文字母、通用字符和控制符号四类最常用的字符。ASCII码 虽是一种7位编码,但它存放时必须占全一个字节,即占用 8位,其最高位是0。
GB2312:为了适应计算机处理中文信息的需要,国家标 准总局制定了 中华人民共和国国家标准信息交换汉字编 码”,标准号为“GB 2312-1980”。这种编码称为国标码。 它适用于汉字处理、汉字通信等系统之间的信息交换。基本 集共收入汉字6763个和非汉字图形字符682个。在GB2312 中,一个字符通常使用两个字节的数字表示,而对于每个中 文字符的每一个字节来说,其最高位使用的是数字1来表示 的,这也是GB2312字符编码集与ASCII码的不同之处。
GBK:自GB2312标准之后,我国于1993年发布了 GB13000 标准,并在此基础上生成GBK字符集。它与GB2312完全兼 容,收录了 20902个简繁体汉字及符号。该标准仍然用两个 字节表示一个汉字。
IS0-8859-1:全称是IS0/IEC 8859,是国际标准化组织 (ISO)及国际电工委员会(IEC)联合制定的一系列8位字 符集的标准,现时定义了 15个字符集。它是西方国家所使 用的字符编码集,其编码范围是OxOO-OxFF,表示的字符范 围很窄,无法表示中文字符。但是由于它是一种单字节的字 符集,和计算机最基础的表示单位一致,所以在很多时候, 仍然用ISO-8859-1。在此编码集中,收录的字符包括:ASCII 收录的字符以及泰语、希腊语、阿拉伯语、西欧语言、希伯 来语对应的文字符号。
Unicode: EBCDIC (扩展二~十进制交换码)和ASCII码 所表示的字符对于使用英语和西欧地区语言的人们来说已 经够用,但对于中国等亚洲国家所用的表意文字的表示则远 远不够,于是就出现了 Unicode码。它是一种通用的字符集, 是一种16位的编码,即2个字节,能表示65000个字符或 符号。因此Unicode码用于大多数的语言。它与ASCII码完 全兼容。
UTF-8:全称为:Unicode TransformationFormat-8bit。 是UNICODE的之中变长字符编码又称万国码,由Ken Thompson于1992年创建。现在已经标准化为RFC 3629°UTF-8 用1到6个字节编码UNICODE字符。用在网页上可以同一页 面显示中文简体繁体及其它语言(如日文,韩文)。它对英 文使用8位(即一个字节),中文使用24为(三个字节)来编 码。UTF-8包含全世界所有国家需要用到的字符,是国际编 码,通用性强。UTF-8编码的文字可以在各国支持UTF-8字 符集的浏览器上显示。
3中文乱码问题的产生原因
在Java Web开发中,我们用到的数据通常会通过Web 服务器在应用程序和数据库中进行双向的传输,而Web服务 器,应用程序和数据库中都有可能使用不同的字符编码集, 从而就导致了传输过程中的乱码问题。在Java Web开发中, 对中文的正确显示产生影响的方面主要有:
Web服务器:在Java Web开发中
目前许多WEB服务器都是采用Tomcat,它是一个开放源 代码、运行servlet和JSP Web应用软件的基于Java的Web 应用软件容器,它所默认的字符编码是ISO-8859-1 o
Web应用程序:在Java语言
您可能关注的文档
最近下载
- 蒂森MC2详细说明.pdf VIP
- 公交公司安全工作总结.docx VIP
- 打点计时器试卷习题精选附答案(出试卷可选用) .doc VIP
- (正式版)SH∕T 3006-2024 石油化工控制室设计规范.pdf VIP
- (完整版)打点计时器试卷习题附答案(出试卷可选用).docx VIP
- 国家开放大学——政治学原理——章七 自检自测—2022春季作业—2021秋季班.doc VIP
- 在线网课学习课堂《社会研究方法( 华科)》单元测试考核答案.docx VIP
- 蒂升电梯调试资料MC2B门机BG211-BG211C.pdf VIP
- 提高卧床患者踝泵运动的执行率.pptx VIP
- 蒂森MC2-B系统调试手册.pdf VIP
原创力文档


文档评论(0)