python的一些补充学习 - python 对付 js 混淆加密 - 《玩物丧记》

从何说起
- 找到它
JavaScript 混淆/加密
Python 运行 JavaScript 代码

最近在处理一个登录爬虫时，遇到了在网页端运用JavaScript混淆和对用户名密码加密的手段，但不是很复杂。
(大幅度参考https://github.com/PFISH1998/pfish1998.github.io/blob/2537d5f9b620d9295511f8319d6ec57770525580/source/_posts/Python%E5%BA%94%E5%AF%B9JS%E5%8A%A0%E5%AF%86.md)

从何说起

缘由是在准备用 Python requests 进行模拟登录一个网页，惯例通过抓包发现网页表单往后端 Post 输入的用户名和密码的时候进行了加密；

我想大概率还是开发人员针对安全考虑，不像某些网页直接往后端明文发送一些敏感数据。但这也对爬虫登录带来了小小的麻烦。
接下来的操作就是找到负责这一部分功能的代码，然后要么试着模拟代码用方便的语言实现相同的操作，要么是直接把该代码下载下来，用Python相关的工具运行。

找到它

在HTML代码中和抓包记录中找到该 JS 函数
发现，这跟平常的 JS 不一样，这就涉及到一个叫做JavaScript 加密/混淆的概念：

JavaScript 混淆/加密

混淆：经过编码将变量和函数原命名改为毫无意义的命名（如function(a,b,c,e,g)等），以防止他人窥视和窃取 Javascript 源代码，也有一定压缩效果。
加密：一般用eval方法加密，效果与混淆相似，也做到了压缩的效果。
压缩：删除 Javascript 代码中所有注释、跳格符号、换行符号及无用的空格，从而压缩 JS 文件大小，优化页面加载速度。
// 被加密混淆后的 JavaScript 代码：

eval(function(p,a,c,k,e,d){e=function(c){return(c<a?"":e(parseInt(c/a)))+((c=c%a)>35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--)d[e(c)]=k[c]||e(c);k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1;};while(c--)if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);return p;}('b 9="o+/=";p q(a){b e="";b 8,5,7="";b f,g,c,1="";b i=0;m{8=a.h(i++);5=a.h(i++);7=a.h(i++);f=8>>2;g=((8&3)<<4)|(5>>4);c=((5&s)<<2)|(7>>6);1=7&t;k(j(5)){c=1=l}v k(j(7)){1=l}e=e+9.d(f)+9.d(g)+9.d(c)+9.d(1);8=5=7="";f=g=c=1=""}u(i<a.n);r e}',32,32,'|enc4||||chr2||chr3|chr1|keyStr|input|var|enc3|charAt|output|enc1|enc2|charCodeAt||isNaN|if|64|do|length|ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789|function|encodeInp|return|15|63|while|else'.split('|'),0,{}))

看起来真是一团乱，不知道的以为是这程序员在炫技…
至于怎么还原（解密），现在有很多工具类的网站都能够做到： http://www.bm8.com.cn/jsConfusion/
// 经过反混淆后的 JavaScript 代码

var keyStr = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=";
function encodeInp(input) {
   var output = "";
   var chr1, chr2, chr3 = "";
   var enc1, enc2, enc3, enc4 = "";
   var i = 0;
   do {
       chr1 = input.charCodeAt(i++);
       chr2 = input.charCodeAt(i++);
       chr3 = input.charCodeAt(i++);
       enc1 = chr1 >> 2;
       enc2 = ((chr1 & 3) << 4) | (chr2 >> 4);
       enc3 = ((chr2 & 15) << 2) | (chr3 >> 6);
       enc4 = chr3 & 63;
       if (isNaN(chr2)) {
           enc3 = enc4 = 64
       } else if (isNaN(chr3)) {
           enc4 = 64
       }
       output = output + keyStr.charAt(enc1) + keyStr.charAt(enc2) + keyStr.charAt(enc3) + keyStr.charAt(enc4);
       chr1 = chr2 = chr3 = "";
       enc1 = enc2 = enc3 = enc4 = ""
   } while (i < input.length);
   return output
}

可以看到原来的 JS 代码是对字符进行了一些操作，前端加密，后端再解密。你可以用其他语言实现这个过程（高手，真正的高手），但最简单最方便最没风险，的还是直接拿来用。
不然出了偏差（

Python 运行 JavaScript 代码

得到了原始的 JS 代码，那自然也就能利用它来加密数据，让后端服务器照样认为这是个从网页发来的正常请求。
用 Python 来模拟运行 JavaScrip 的库有几个，这里用 PyExecJS 实现。

首先需要 pip install PyExcJS 安装；
确保机器中有 JavaScript 运行环境（没有的话安装一个 Node.js）

检查一下：
import execjs
print(execjs.get().name)
我安装的是 Node.js 所以显示：
>>> import execjs
>>> print(execjs.get().name)
Node.js (V8)
一切准备就绪，那么就试试能不能达到这个效果。
把要执行的 JS 代码保存成后缀为 .js 的文件
Python 模拟运行 JavaScript 代码的代码：

import execjs
node = execjs.get()
file = 'encode.js'
ctx = node.compile(open(file).read())
# 原 JS 函数名 为 encodeInp()
user = 'encodeInp("{}")'.format(username)
pwd = 'encodeInp("{}")'.format(password)
# 网页向后端 POST 的格式
result = '{}%%%{}'.format(str(ctx.eval(user)), str(ctx.eval(pwd)))

先通过 execjs.get() 方法声明一个运行环境，然后通过compile()方法来执行刚才保存的函数，接着构造一个字符串传递参数，最后eval()方法模拟执行返回结果。
有了这个加密后的数据，就能直接用 requests 发送 POST 请求了：
response = requests.post(url, data={"encoded": result})
但一般登录后如果还要进行页面跳转选择之类的操作的话，还得用 requests.Session() 方法

import requests
session = requests.Session()
session.get(index_url)
response = session.post(login_url, data={"encoded":result})
if response.status_code:
  ...