表现

image.png
数字和大小写字母,以及部分符号变成乱码。大小写英文主要为带土的汉字。

类型

字符集转换

字符集转换,如GBK字符集和Unicode字符集之间的转换。

宽字符和窄字符(常见常用的)乱码

具体数据

乱码 原始字符串
坫坥坹 key
十六进制数据
0x576B 0x6B
0x5765 0x65
0x5779 0x79

解决方式

出现在数字和大小写英文的字符串中,所以当遇到0x57[30-39]、0x57[41-5A]、0x57[61-7A]的数据时,删除其中的0x57。

原因

非常一致的多了0x57,其ASCII码为“W”,即,Wide,意味宽字符。

场景

DataCon2021:网络流量分析 - 中科院信工所-汤元
学习流量分析的时候,有一篇文章是PDF,我复制其中的文字粘贴后,大量乱码,特征为:

  1. 乱码的原文字为数字和大小写字符
  2. 乱码后的文字,大多为土字旁

    解决方式

  3. 复制粘贴,带有乱码的文章保存后,用MarkDown方式导出

  4. 通过Python以十六进制读取读取MarkDown的文本
  5. 当遇到0x57[30-39]、0x57[41-5A]、0x57[61-7A]的数据时,删除其中的0x57

    在线转换

    http://www.mytju.com/classcode/tools/messycoderecover.asp