起因
有一篇APT分析报告《PyMICROPSIA:双尾蝎的新型信息窃取木马再度来袭》的样本是PyInstaller打包的exe,发现分析中的贴图是Python代码。
GitHub上也常见到Python编写然后打包为exe的项目,还原能力还是尽快安排上吧~
还原
Fortinet - 在 Windows 和 Linux 上解压 Python 可执行文件
用 python 编程语言编写的传统程序作为源代码分发,python 解释器用于运行它们。如果运行自己的 python 代码,这很容易;但是,以这种方式交付商业产品相当麻烦。为了解决这个问题,创建了几个项目,可以将 python 程序及其所有依赖项捆绑到一个可执行文件中:Windows 上的可移植可执行文件 (PE) 和 Linux/Unix 上的可执行和可链接格式 (ELF)。
Python 恶意软件也作为打包的可执行文件分发。如果我们谈论恶意软件,总是会出现这样的问题:“我们如何解压和反编译恶意软件以查看其 python 源代码?” 我在两年前创建的视频中讨论了这个话题 。但是从那以后,新的python版本问世了,解包技术也发生了变化。
在这篇博文中,我们将讨论以下主题:
- 包装
- 在python 3.9以下的Windows上解包和反编译
- python 3.9版本后Linux上的解包和反编译
区分较旧和较新的 python 版本很重要,因为在 python 3.9 之后发生了很多变化,包括如何生成 python 字节码以及如何(以及是否)可以恢复源代码。
受影响的平台: Windows、Linux/Unix
包装
首先,让我们讨论一下 python 打包是什么——特别是 PyInstaller。(注意:我交替使用术语打包、打包和捆绑。)打包 python 程序的目标是创建一个可以在操作系统上独立运行的可执行文件。我们不应将此与一般恶意软件打包混淆,后者的目标是向分析师和安全工具隐藏恶意代码。Python 打包不打算提供任何安全性或混淆。这只是包装的副作用。当我们捆绑一个 python 程序时,我们用于打包的工具,例如 PyInstaller,会执行以下操作:
- 将所有.py源文件编译为 python 字节码(.pyc文件)
- 收集所有python编译的源代码和python依赖
- 包括依赖于操作系统的 python 解释器(即Linux上的libpython3.9.so.1.0或 Windows 上的python37.dll)
- 将所有这些与一个存根捆绑在一起,该存根首先将这些文件解压缩到磁盘或内存中,然后使用包含的解释器执行原始 python 代码。
虽然有一些项目可以创建此类打包的可执行文件,但最著名的是 PyInstaller。
为了了解打包的工作原理,我们在 Windows 上创建了一个打包的 python 可执行文件。图 1 显示了一个极其复杂的示例程序,需要计算机工程硕士学位和大约 10 年的创建经验。
图 1 - 测试程序“evil_program.py”
我们可以很容易地在 Windows 终端中运行这个程序,如图 2 所示。
图 2 - 运行 evil_program.py
要将这个 python 程序转换为一个打包的 EXE 文件,我们可以使用 PyInstaller,它是我安装在 python 虚拟环境中的(图 3)。
图 3 - 使用 PyInstaller 创建 EXE
值得您花时间滚动浏览日志,因为它们可以让您深入了解 PyInstaller 在幕后所做的事情。完成后,新创建的evil_program.exe将列在\dist\文件夹下。图 4 显示我们可以运行此可执行文件并获得与直接运行代码相同的结果。最大的不同是我们现在可以将这个 EXE 文件移动到另一台 Windows 机器上,它应该独立运行而没有任何 python 依赖。
图 4 - 运行新创建的 EXE 文件
在 Windows 上解包 python < 3.9
现在我们有了一个打包的 EXE 文件,我们可以尝试将其还原为 python 源代码。在真正的逆向工程场景中,第一个问题通常是,“我们如何发现被分析的二进制文件是一个打包的 Python 程序?” 最常见的线索是我们会看到很多以py开头的字符串(图 5)。
图 5 - 在二进制字符串中搜索“py”
特别是对于 PyInstaller,我们还将在二进制文件中看到字符串MEIPASS 。
第二个问题是,“程序使用的是哪个 python 版本?” 找出这一点的最简单方法是运行程序并监视在操作系统 (OS) 的临时文件夹中创建了哪些文件。那是因为 PyInstaller 首先解压临时文件夹中的所有文件。通过监视文件系统活动,我们可以看到python38.dll(图 6)保存在临时文件夹中。这告诉我们,python 3.8 用于创建打包程序,因此我们需要相同的 python 版本来进行所有进一步的分析。
图 6 - 监控文件系统活动
要恢复源代码,我们必须解决两个挑战:
- 从 EXE 文件中解压缩所有文件。这将为我们提供编译的 python 字节码 ( .pyc ) 文件
- 反编译有趣的.pyc文件
在所有操作系统下所有版本的python中解压EXE文件的过程都会是相似的。更大的挑战是反编译.pyc文件,因为每个 python 版本和工具中的更改仅适用于特定版本。
为了解压这个 EXE 文件,我们将使用 pyinstxtractor。只需将 pyinstxtractor.py 下载到您要使用它的文件夹中(图 7 显示了如何执行此操作)。需要注意的一个重要细节是使用的 python 解释器必须与打包的python 程序的版本相同。
图 7 - 解压 evil_program.exe
另一个重要的细节是 pyinstxtractor 还提供了关于哪些文件可能是 python 程序的主文件的提示。经常会有一些误报,但如果分析的项目很大,这仍然是一个巨大的帮助。在这种情况下,我们知道主文件是evil_program.pyc。EXE 被解压到evil_program.exe_extracted文件夹中(图 8)。
图 8 - 提取的 .pyc 文件
下一步是反编译evil_program.pyc。为此,我们将使用一个名为 uncompyle6的工具。同样,在这一点上,人们必须了解 python 版本并查阅用于反编译的工具的文档。Uncompyle6 最多只支持 python 3.8。之后,您将不得不寻找另一个工具(我们将在下一节中讨论)。反编译过程如图 9 所示。
图 9 - 反编译 evil_program.pyc
这样,我们就达到了我们的目标,并恢复了这个简单的打包 python 程序的源代码。
在 Linux 上解压 python >= 3.9
在本节中,我们将使用更新的 python 版本在 Linux 下完成相同的过程。我们将分析的文件是我们在最近的威胁搜寻期间在 VirusTotal 上发现的真实恶意软件样本。关于这个二进制文件的更多信息可以在 VirusTotal上找到。一旦我对文件进行了逆向工程,我认为写一篇关于解压过程的博客文章会很有趣。在这篇文章中,我们不会专注于对样本的分析。
为了解压样本,我们再次使用 pyinstxtractor,但有一个 转折。图 10 显示样本是 64 位 ELF 二进制文件。我们不能直接在 ELF 二进制文件上使用 pyinstxtractor。因此,我们首先需要将文件的pydata部分转储到一个单独的文件中并在其上运行 pyinstxtractor。
图 10 - pydata 部分的转储
解包如图 11 所示。同样,我们需要注意使用正确的 python 版本,在本例中为 3.9。
图 11 - 解压 pydata.dump
解压后的数据中有一个RansomWare.pyc,这一事实使我们正在处理的内容一目了然。
使用 python 3.9 我们不能再使用uncompyle6。相反,我们可以使用像 Decompyle++这样的工具,这是一个非常有前途的项目,它使用不同的、更通用的方法进行反编译。但是,网站上并没有很好地解释如何构建项目,因此图 12 向您展示了如何下载和构建它。
图 12 - 构建 Decompile++ pycdc
要从任何地方调用pycdc命令,我们也可以运行sudo make install。
pycdc命令是反编译器,因此我们使用它来恢复 RansomWare.pyc 的源代码,如图13所示。
图 13 - 反编译 RansomWare.pyc
至此,我们已经达到了恢复大部分RansomWare.py原始源代码的目标。不幸的是,我们也可能会看到类似图 14 中的函数,其中反编译在某些时候失败。
图 14 - 无法反编译 write_key() 函数
当我们反编译字节码时,这也发生在 Java 和 .Net 中。有时,反编译器会失败,我们只能得到部分代码。在这种情况下,我们需要找到其他方法来确定该函数中发生了什么,例如动态分析。在这种情况下,我们可以使用pycdas命令来恢复“反汇编”的字节码。在那里我们可以查找反编译失败的函数。图 15 显示了write_key() 函数的字节码反汇编。
图 15 - write_key() 函数的字节码反汇编
在本节的开头,我提到我们不会分析样本。它看起来像勒索软件,python 代码是为 Windows 编写的,但打包为 ELF 可执行文件,通常在 Linux/Unix 系统上运行。这可能表明该示例适用于 Linux 的 Windows 子系统 (WSL)。但这是另一篇博客文章的故事。
结论
在这篇博文中,我们介绍了如何解压和反编译使用 PyInstaller 打包的 Python 程序。我们还讨论了以下场景:
- Windows
- Linux
- Python 版本大于或等于 3.9
- Python 版本低于或等于 3.8
逆向工程 python 恶意软件非常有用,因为我们可以在源代码级别对其进行分析,这当然效率更高。
new和光同尘 - 将pyinstaller打包后的exe还原成py / 防止还原
1. 将exe文件解压
好多教程或者说明文档,都说这个过程是反编译,在我看来是两个过程,1. 解压,2.反编译,其实,pyinstaller的原理:
把python解析器、脚本以及被打包脚本依赖的其他脚本(三方库)和需要的windows dll文件等等 打包成一个可执行的文件,这个文件可以不依赖python环境直接在wondows机器上执行起来。
既然是打包起来的,第一步就需要把包拆开(解压),看看里边具体是什么,下载拆包工具pyinstxtractor.py,然后执行拆包命令:
pyinstxtractor.py test.exe
会得到一个文件夹 “可执行文件名称test.exe_extracted”的文件夹:
2. 获取pyc文件
在上述获取到的文件夹中找到 “test” 文件,这个文件不能直接作为pyc文件反编译,这是因为pyc文件以特定的头字节(magic head,包含Python的版本号和时间戳),pyinstxtractor虽然反编译出了test的文件的内容,但没有给它加上pyc文件的头字节,因此 需要先将缺失的字节补充回来,才能编译成功。
根据网上大神介绍,与“test”同目录下的“struct”文件的头字节是pyc文件的一种,将“test”的头自己补充完成后,在重命名pyc文件,即可开始反编译:
以16进制的文件形式打开两个文件,我用的是notepad++,装了16进制查看文件的插件HEX-Editor,直接修改test,然后保存,重命名成pyc格式的文件:
另外一个方法就是使用python对二进制文件处理,增加头文件:
structPath = 'struct'
programPath = 'test'
f=open(structPath, 'rb')#打开struct文件
f2=open(programPath, 'rb')#打开待反编文件
w_all=f2.read()#先读取待反编文件原来的内容
f2.seek(0)#读取完之后从头开始
w=f.read(16).hex()#再读取16个字节用于比较
w2=f2.read(16).hex()#struct也读取16个用于比较
print(w,w2,sep='\n')#打印出来让我们看见
add=input('Please input the codes you need to write:')#然后问你要在开头写入什么
add=bytes.fromhex(add)#把普通字符串转换为bytes格式,并不是encode,而是fromhex(),把字符串看成是十六进制编码
f2.close()#关闭
f2=open(programPath+'.pyc', 'wb')#创建pyc待反编文件
f2.write(add+w_all)#把加入的字节和原来的字节合并写入文件
f.close()
f2.close()
print('Done.')
3. 反编译pyc文件
安装uncompyle6
有的文档介绍说是uncompyle2,其实安装的时候会默认安装uncompyle6
pip install uncompyle6
反编译
uncompyle6 test.pyc > compyleTest.py
4. 复杂的脚本
现实情况中不会有这么简单的脚本,往往都是相互引用,按照上述步骤只是反编译出来了入口exe,至于引用的其他编写的文件中的代码是看不到的,比如 getValue()这个是看不到源码的:
此时去解压的文件中test.exe_extracted中进入PYZ-00.pyz_extracted,这个里边全部是引用三方或者自己编写代码用到的库文件,根据import找到需要编译的pyc文件,再次反编译得到另外想到的源码文件,
但是 但是 请注意
虽然PYZ-00.pyz_extracted中的文件格式都是pyc文件,但是直接试用上述方法反编译 会出现异常,导致异常的原因还是 pyc文件的头信息,中的python版本不匹配当前机器安装的python版本导致问题,因此修改pyc文件中头信息(magic head)中的版本即可再次编译。
获取到编译后的Helper.py文件:
5. 防止还原
综上所述,编译过的pyc二进制文件可以还原成py文件,那么在不做处理的时候直接使用pyinstaller的时候py文件会被编译成pyc文件存在pycache文件中,然后将自己编写的pyc和引用到的三方库pyc打包到exe中:
打包的过程绕过pyc,或者找其他的方式代替pyc,经过查找可以将py文件编译为动态链接库,打包的时候使用动态链接库,这样破解难度将大大增加。
其中,在python里,pyd格式即动态链接库,pyinstaller打包时 优先级pyd > py, pyd文件是由 Cython首先把python源码翻译成了 .c文件,这个过程基本不可逆,然后vs再把这个.c文件编译成了pyd文件。所以源码失踪了,只剩下汇编语言。
步骤如下
安装cython
pip install Cython
在工程中创建一个build_pyd.py 文件,目的是生成对应文件的pyd文件:
from distutils.core import setup
from Cython.Build import cythonize
setup(
name='any words.....',
ext_modules=cythonize(["one.py", "two.py", ]),
)
触发脚本执行,生成pyd:
python build_pyd.py build_ext --inplace
生成的pyd在同级目录的同名目录下,如图:
做完前期操作之后 开始打包,打包方式不变,除了程序的入口py文件可以被反编译,其他自己开发的文件解压之后都是pyd文件,两种情况的对比 :
注意 注意 注意
出错的一个点,自己的部分代码/三方库没有打包进去。调整现有代码结构,增加一个py文件,只作为程序入口,同时这个文件中引入整个程序用到的三方库,目的是打包的时候给三方库打包进去。
下面图片中 就是缺少 import了自己编写的库 ,把import加上,重新打包就可以了: