所在的位置: Web开发 >> HTNL >> JAVAWEB乱码问题解析

JAVAWEB乱码问题解析

乱码原因

在JavaWeb开发过程中,经常遇到乱码的问题,造成乱码的原因,概括起来就是对字符编码和解码的方式不匹配。

既然乱码的原因是字符编码与解码的方式不匹配,那么为什么我们一定要对字符进行编码,不编码可不可以呢?

这是因为在计算机中存储数据的基本单位是1个字节,即8个bit,那么它所能表达的字符的最多有28=个,而在我们现实社会中存在的字符(汉字、英文、其他文字等等)远远多于这个数字,所以为了解决字符与字节的矛盾,对字符进行编码处理才能存储在计算机中。

编码与解码

在计算机中常见的编码方式有ASCII、ISO--1、GB、UTF-16、UTF-8几种编码方式。

ASCII码是使用一个字节的低7位来表示的,所以共能表达的字符最多有27=个。ISO--1是ISO组织基于ASCII码的基础上扩展来的,兼容ASCII码,涵盖了大多数西欧字符。

ISO-1使用一个字节来表示,所以其能表达的字符最多有个。GB,采用了双字节编码,编码范围是A1-F7,其中A1-A9是符号区,B0-F7是汉字区,包含个汉字。

GBK是为了扩展GB编码,并加入了更多的汉字,总能表达的汉字有个。UTF-16是采用定长的编码方式,无论什么字符都采用2个字节进行表示,这也是JAVA内存中字符的存储格式。与UTF-16相反,UTF-8采用了变长的编码方式,不同的类型的字符可以由1-6个字节组成。

下面以字符串“日向雏田”来看一下在计算机中不同编码方式的编码,如下图。

乱码分析与解决

对于JAVAWEB中乱码问题,我们划分位请求导致的乱码和响应导致的乱码,对于不同的乱码我们要分析其乱码原因,即字符编码的方式是什么,解码的方式是什么。

对于由于请求导致的乱码我们要分析Http请求,查看其编码方式,由于HTTP请求分为Get请求和Post请求,我们接下来分别对其进行讨论。

对于Get请求,是浏览器默认的请求方式,和表单提交时设置为“Get”时的提交方式。我们通过火狐浏览器我们查看其具体内容如下:

地址栏为:

请求内容为:

通过上面请求我们可以看到,GET请求中查询字符串放在了请求行中存放,发送到WEB服务器中,通过“日向雏田”编码我们可以看到,浏览器对该字符串采用的编码方式为“UTF-8”。

查看服务器代码我们可以看到乱码(如下图),这是因为服务器在接受到该字符串编码后的数据默认通过ISO--1的方式进行解码,所以造成了编码与解码的方式不统一。

解决方案如下:

首先获取字符串user解码前的编码,然后指定该字符串的编码方式,如下图:

解决方案示意图如下:

在Javaweb开发过程中,我们在超链接中传递参数,经常遇到中文的情况。对此情况下,我们需要对中文进行编码,我们可以设置为UTF-8,解码方案同上。

ahref="${pageContext.request.contextPath}/Test?user=%=URLEncoder.encode("日向雏田","UTF-8")%"点击/a

对于Post请求,是表单提交时设置为“Post”时的提交方式。我们通过火狐浏览器我们查看其具体内容如下:

地址栏及其页面为:

post请求内容为:

由上图我们可以知道,在post请求中,将请求内容直接放在请求体中发送给web服务器,编码方式为“utf-8”。

在此响应Servlet中,doPost方法体如下:

publicvoiddoPost(HttpServletRequestrequest,HTTPServletResponseresponse)throwsServletException,IOException{Stringuser=request.getParameter("user");System.out.println(user);//输出为??¥???é????°}

此处乱码的原因

依然是在代码getParameter(“user”)时,web服务器采用默认的解码方案“ISO--1”进行解码,导致了编码与解码方案的不同意,解决方案可以采用get请求乱码的解决方案,但是还有一种更为简单的解决方案,直接指定方法体的编码/解码方案为“utf-8”。方案如下:

publicvoiddoPost(HttpServletRequestrequest,HTTPServletResponseresponse)throwsServletException,IOException{response.setCharacterEncoding("utf-8");   //设置请求体的编码/解码方案为UTF-8但是请求行的编码解码方案不会受影响Stringuser=request.getParameter("user");System.out.println(user);               //输出为日向雏田}

以上对于请求导致的乱码情况分析完毕。

在影响导致的乱码中,web服务器会将响应的内容写入响应体中,返回给客户端并不会涉及到状态行中的情况。如向浏览器输出”HelloWorld“其响应如下图所说。

对于响应导致的乱码我们不得不涉及到四个方法,如下:

response.setHeader("Content-Type","text/html;cahrset=utf-8");//设置发送到客户端的响应的内容类型和响应内容的编码类型(响应体的编码类型)brresponse.setCharacterEncoding("utf-8");//设置响应体的编码类型brresponse.getWriter();                //获取响应的输出字符流 response.getOutputStream();          //获取响应的输出字节流

对于设置响应体的编码类型,

如response.setHeader("Content-Type",

"text/html;cahrset=utf-8");

与response.setCharacterEncoding("utf-8");这2个方法设置的编码方式等效,若没有设置响应体的编码方式,则默认为ISO--1,而且后面设置响应体字符的编码方式会迭代前面的设置编码的方式。这两个方法均在getWriter方法前有效,在getWriter方法设置编码的方法会无效。

但是这2个方法却有点不同,即setHeader("Content-Type","text/html;cahrset=utf-8")这个方法浏览器会自动采用该响应体的编码方式进行解码,而setCharacterEncoding()该方法并不是所有的浏览器都会采用该方法的编码方式进行解码,下面对这2个方法进行测试,效果如下:

publicvoiddoGet(HttpServletRequestrequest,HTTPServletResponseresponse)throwsServletException,IOException{response.setHeader("Content-Type","text/html;charset=utf-8");response.getWriter().write("日向雏田");}

publicvoiddoGet(HttpServletRequestrequest,HTTPServletResponseresponse)throwsServletException,IOException{response.setCharacterEncoding("utf-8");response.getWriter().write("日向雏田");}

从上面可以看到第一个方法对于浏览器来说,支持的较好,提倡采用第一种方法设置响应体的字符编码方式。

对于获取响应字符输出流的方法,如果在此之前没有设置响应体的编码方式,那么默认为null,即ISO--1方式进行编码。而且后面设置的编码方式会覆盖前面设置的编码方式。在getWriter()方法之后设置的编码无效。

对于获取响应输出字节流,我们在输出字符串时,我们需要设置字符串的编码方式如果没有那么默认ISO--1。

对于前面2个输出流,由于只有一个输出缓存,所以这两个方法互斥。

以上,为了保证响应无乱码,需要保证字符编码和解码方法的统一,方案如下:

publicvoiddoGet(HttpServletRequestrequest,HTTPServletResponseresponse)throwsServletException,IOException{//方案1//response.setHeader("Content-Type","text/html;charset=utf-8");//response.getWriter().write("日向雏田");//方案2//response.getOutputStream().write("日向雏田".getBytes("UTF-8"));//方案1,2互斥}

文章来源:









































鐧界櫆椋庤鎬庝箞娌?
鍖椾含鍝噷娌荤枟鐧界櫆椋庤緝濂?



转载请注明:http://www.guyukameng.com/html/7973.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了