表现
数字和大小写字母,以及部分符号变成乱码。大小写英文主要为带土的汉字。
类型
字符集转换
字符集转换,如GBK字符集和Unicode字符集之间的转换。
宽字符和窄字符(常见常用的)乱码
具体数据
乱码 | 原始字符串 |
---|---|
坫坥坹 | key |
十六进制数据 | |
0x576B | 0x6B |
0x5765 | 0x65 |
0x5779 | 0x79 |
解决方式
出现在数字和大小写英文的字符串中,所以当遇到0x57[30-39]、0x57[41-5A]、0x57[61-7A]的数据时,删除其中的0x57。
原因
非常一致的多了0x57,其ASCII码为“W”,即,Wide,意味宽字符。
场景
DataCon2021:网络流量分析 - 中科院信工所-汤元
学习流量分析的时候,有一篇文章是PDF,我复制其中的文字粘贴后,大量乱码,特征为:
- 乱码的原文字为数字和大小写字符
-
解决方式
复制粘贴,带有乱码的文章保存后,用MarkDown方式导出
- 通过Python以十六进制读取读取MarkDown的文本
- 当遇到0x57[30-39]、0x57[41-5A]、0x57[61-7A]的数据时,删除其中的0x57
在线转换
http://www.mytju.com/classcode/tools/messycoderecover.asp