起因

有一篇APT分析报告《PyMICROPSIA：双尾蝎的新型信息窃取木马再度来袭》的样本是PyInstaller打包的exe，发现分析中的贴图是Python代码。
GitHub上也常见到Python编写然后打包为exe的项目，还原能力还是尽快安排上吧~

还原

Fortinet - 在 Windows 和 Linux 上解压 Python 可执行文件

用 python 编程语言编写的传统程序作为源代码分发，python 解释器用于运行它们。如果运行自己的 python 代码，这很容易；但是，以这种方式交付商业产品相当麻烦。为了解决这个问题，创建了几个项目，可以将 python 程序及其所有依赖项捆绑到一个可执行文件中：Windows 上的可移植可执行文件 (PE) 和 Linux/Unix 上的可执行和可链接格式 (ELF)。
Python 恶意软件也作为打包的可执行文件分发。如果我们谈论恶意软件，总是会出现这样的问题：“我们如何解压和反编译恶意软件以查看其 python 源代码？” 我在两年前创建的视频中讨论了这个话题。但是从那以后，新的python版本问世了，解包技术也发生了变化。
在这篇博文中，我们将讨论以下主题：

包装
在python 3.9以下的Windows上解包和反编译
python 3.9版本后Linux上的解包和反编译

区分较旧和较新的 python 版本很重要，因为在 python 3.9 之后发生了很多变化，包括如何生成 python 字节码以及如何（以及是否）可以恢复源代码。
受影响的平台： Windows、Linux/Unix

包装

首先，让我们讨论一下 python 打包是什么——特别是 PyInstaller。（注意：我交替使用术语打包、打包和捆绑。）打包 python 程序的目标是创建一个可以在操作系统上独立运行的可执行文件。我们不应将此与一般恶意软件打包混淆，后者的目标是向分析师和安全工具隐藏恶意代码。Python 打包不打算提供任何安全性或混淆。这只是包装的副作用。当我们捆绑一个 python 程序时，我们用于打包的工具，例如 PyInstaller，会执行以下操作：

将所有.py源文件编译为 python 字节码（.pyc文件）
收集所有python编译的源代码和python依赖
包括依赖于操作系统的 python 解释器（即Linux上的libpython3.9.so.1.0或 Windows 上的python37.dll）
将所有这些与一个存根捆绑在一起，该存根首先将这些文件解压缩到磁盘或内存中，然后使用包含的解释器执行原始 python 代码。

虽然有一些项目可以创建此类打包的可执行文件，但最著名的是 PyInstaller。
为了了解打包的工作原理，我们在 Windows 上创建了一个打包的 python 可执行文件。图 1 显示了一个极其复杂的示例程序，需要计算机工程硕士学位和大约 10 年的创建经验。

图 1 - 测试程序“evil_program.py”
我们可以很容易地在 Windows 终端中运行这个程序，如图 2 所示。

图 2 - 运行 evil_program.py
要将这个 python 程序转换为一个打包的 EXE 文件，我们可以使用 PyInstaller，它是我安装在 python 虚拟环境中的（图 3）。
图 3 - 使用 PyInstaller 创建 EXE
值得您花时间滚动浏览日志，因为它们可以让您深入了解 PyInstaller 在幕后所做的事情。完成后，新创建的evil_program.exe将列在\dist\文件夹下。图 4 显示我们可以运行此可执行文件并获得与直接运行代码相同的结果。最大的不同是我们现在可以将这个 EXE 文件移动到另一台 Windows 机器上，它应该独立运行而没有任何 python 依赖。

图 4 - 运行新创建的 EXE 文件

在 Windows 上解包 python < 3.9

现在我们有了一个打包的 EXE 文件，我们可以尝试将其还原为 python 源代码。在真正的逆向工程场景中，第一个问题通常是，“我们如何发现被分析的二进制文件是一个打包的 Python 程序？” 最常见的线索是我们会看到很多以py开头的字符串（图 5）。

图 5 - 在二进制字符串中搜索“py”
特别是对于 PyInstaller，我们还将在二进制文件中看到字符串MEIPASS 。
第二个问题是，“程序使用的是哪个 python 版本？” 找出这一点的最简单方法是运行程序并监视在操作系统 (OS) 的临时文件夹中创建了哪些文件。那是因为 PyInstaller 首先解压临时文件夹中的所有文件。通过监视文件系统活动，我们可以看到python38.dll（图 6）保存在临时文件夹中。这告诉我们，python 3.8 用于创建打包程序，因此我们需要相同的 python 版本来进行所有进一步的分析。
图 6 - 监控文件系统活动
要恢复源代码，我们必须解决两个挑战：

从 EXE 文件中解压缩所有文件。这将为我们提供编译的 python 字节码 ( .pyc ) 文件
反编译有趣的.pyc文件

在所有操作系统下所有版本的python中解压EXE文件的过程都会是相似的。更大的挑战是反编译.pyc文件，因为每个 python 版本和工具中的更改仅适用于特定版本。
为了解压这个 EXE 文件，我们将使用 pyinstxtractor。只需将 pyinstxtractor.py 下载到您要使用它的文件夹中（图 7 显示了如何执行此操作）。需要注意的一个重要细节是使用的 python 解释器必须与打包的python 程序的版本相同。

图 7 - 解压 evil_program.exe
另一个重要的细节是 pyinstxtractor 还提供了关于哪些文件可能是 python 程序的主文件的提示。经常会有一些误报，但如果分析的项目很大，这仍然是一个巨大的帮助。在这种情况下，我们知道主文件是evil_program.pyc。EXE 被解压到evil_program.exe_extracted文件夹中（图 8）。

图 8 - 提取的 .pyc 文件
下一步是反编译evil_program.pyc。为此，我们将使用一个名为 uncompyle6的工具。同样，在这一点上，人们必须了解 python 版本并查阅用于反编译的工具的文档。Uncompyle6 最多只支持 python 3.8。之后，您将不得不寻找另一个工具（我们将在下一节中讨论）。反编译过程如图 9 所示。

图 9 - 反编译 evil_program.pyc
这样，我们就达到了我们的目标，并恢复了这个简单的打包 python 程序的源代码。

在 Linux 上解压 python >= 3.9

在本节中，我们将使用更新的 python 版本在 Linux 下完成相同的过程。我们将分析的文件是我们在最近的威胁搜寻期间在 VirusTotal 上发现的真实恶意软件样本。关于这个二进制文件的更多信息可以在 VirusTotal上找到。一旦我对文件进行了逆向工程，我认为写一篇关于解压过程的博客文章会很有趣。在这篇文章中，我们不会专注于对样本的分析。
为了解压样本，我们再次使用 pyinstxtractor，但有一个转折。图 10 显示样本是 64 位 ELF 二进制文件。我们不能直接在 ELF 二进制文件上使用 pyinstxtractor。因此，我们首先需要将文件的pydata部分转储到一个单独的文件中并在其上运行 pyinstxtractor。

图 10 - pydata 部分的转储
解包如图 11 所示。同样，我们需要注意使用正确的 python 版本，在本例中为 3.9。

图 11 - 解压 pydata.dump
解压后的数据中有一个RansomWare.pyc，这一事实使我们正在处理的内容一目了然。
使用 python 3.9 我们不能再使用uncompyle6。相反，我们可以使用像 Decompyle++这样的工具，这是一个非常有前途的项目，它使用不同的、更通用的方法进行反编译。但是，网站上并没有很好地解释如何构建项目，因此图 12 向您展示了如何下载和构建它。

图 12 - 构建 Decompile++ pycdc
要从任何地方调用pycdc命令，我们也可以运行sudo make install。
pycdc命令是反编译器，因此我们使用它来恢复 RansomWare.pyc 的源代码，如图13所示。

图 13 - 反编译 RansomWare.pyc
至此，我们已经达到了恢复大部分RansomWare.py原始源代码的目标。不幸的是，我们也可能会看到类似图 14 中的函数，其中反编译在某些时候失败。

图 14 - 无法反编译 write_key() 函数
当我们反编译字节码时，这也发生在 Java 和 .Net 中。有时，反编译器会失败，我们只能得到部分代码。在这种情况下，我们需要找到其他方法来确定该函数中发生了什么，例如动态分析。在这种情况下，我们可以使用pycdas命令来恢复“反汇编”的字节码。在那里我们可以查找反编译失败的函数。图 15 显示了write_key() 函数的字节码反汇编。

图 15 - write_key() 函数的字节码反汇编
在本节的开头，我提到我们不会分析样本。它看起来像勒索软件，python 代码是为 Windows 编写的，但打包为 ELF 可执行文件，通常在 Linux/Unix 系统上运行。这可能表明该示例适用于 Linux 的 Windows 子系统 (WSL)。但这是另一篇博客文章的故事。

结论

在这篇博文中，我们介绍了如何解压和反编译使用 PyInstaller 打包的 Python 程序。我们还讨论了以下场景：

Windows
Linux
Python 版本大于或等于 3.9
Python 版本低于或等于 3.8

逆向工程 python 恶意软件非常有用，因为我们可以在源代码级别对其进行分析，这当然效率更高。

new和光同尘 - 将pyinstaller打包后的exe还原成py / 防止还原

1. 将exe文件解压

好多教程或者说明文档，都说这个过程是反编译，在我看来是两个过程，1. 解压，2.反编译，其实，pyinstaller的原理：
把python解析器、脚本以及被打包脚本依赖的其他脚本（三方库）和需要的windows dll文件等等打包成一个可执行的文件，这个文件可以不依赖python环境直接在wondows机器上执行起来。
既然是打包起来的，第一步就需要把包拆开（解压），看看里边具体是什么，下载拆包工具pyinstxtractor.py，然后执行拆包命令：

pyinstxtractor.py  test.exe

会得到一个文件夹 “可执行文件名称test.exe_extracted”的文件夹：

2. 获取pyc文件

在上述获取到的文件夹中找到 “test” 文件，这个文件不能直接作为pyc文件反编译，这是因为pyc文件以特定的头字节（magic head，包含Python的版本号和时间戳），pyinstxtractor虽然反编译出了test的文件的内容，但没有给它加上pyc文件的头字节，因此需要先将缺失的字节补充回来，才能编译成功。
根据网上大神介绍，与“test”同目录下的“struct”文件的头字节是pyc文件的一种，将“test”的头自己补充完成后，在重命名pyc文件，即可开始反编译：

以16进制的文件形式打开两个文件，我用的是notepad++，装了16进制查看文件的插件HEX-Editor，直接修改test，然后保存，重命名成pyc格式的文件：

另外一个方法就是使用python对二进制文件处理，增加头文件：

structPath = 'struct'
programPath = 'test'
f=open(structPath, 'rb')#打开struct文件
f2=open(programPath, 'rb')#打开待反编文件
w_all=f2.read()#先读取待反编文件原来的内容
f2.seek(0)#读取完之后从头开始
w=f.read(16).hex()#再读取16个字节用于比较
w2=f2.read(16).hex()#struct也读取16个用于比较
print(w,w2,sep='\n')#打印出来让我们看见
add=input('Please input the codes you need to write:')#然后问你要在开头写入什么
add=bytes.fromhex(add)#把普通字符串转换为bytes格式，并不是encode，而是fromhex(),把字符串看成是十六进制编码
f2.close()#关闭
f2=open(programPath+'.pyc', 'wb')#创建pyc待反编文件
f2.write(add+w_all)#把加入的字节和原来的字节合并写入文件
f.close()
f2.close()
print('Done.')

3. 反编译pyc文件

安装uncompyle6

有的文档介绍说是uncompyle2，其实安装的时候会默认安装uncompyle6

pip install uncompyle6

反编译

uncompyle6 test.pyc > compyleTest.py

4. 复杂的脚本

现实情况中不会有这么简单的脚本，往往都是相互引用，按照上述步骤只是反编译出来了入口exe，至于引用的其他编写的文件中的代码是看不到的，比如 getValue()这个是看不到源码的：

此时去解压的文件中test.exe_extracted中进入PYZ-00.pyz_extracted，这个里边全部是引用三方或者自己编写代码用到的库文件，根据import找到需要编译的pyc文件，再次反编译得到另外想到的源码文件，

但是但是请注意

虽然PYZ-00.pyz_extracted中的文件格式都是pyc文件，但是直接试用上述方法反编译会出现异常，导致异常的原因还是 pyc文件的头信息，中的python版本不匹配当前机器安装的python版本导致问题，因此修改pyc文件中头信息（magic head）中的版本即可再次编译。
获取到编译后的Helper.py文件：

5. 防止还原

综上所述，编译过的pyc二进制文件可以还原成py文件，那么在不做处理的时候直接使用pyinstaller的时候py文件会被编译成pyc文件存在pycache文件中，然后将自己编写的pyc和引用到的三方库pyc打包到exe中：

打包的过程绕过pyc，或者找其他的方式代替pyc，经过查找可以将py文件编译为动态链接库，打包的时候使用动态链接库，这样破解难度将大大增加。
其中，在python里，pyd格式即动态链接库，pyinstaller打包时优先级pyd > py， pyd文件是由 Cython首先把python源码翻译成了 .c文件，这个过程基本不可逆，然后vs再把这个.c文件编译成了pyd文件。所以源码失踪了，只剩下汇编语言。

步骤如下

安装cython

pip install Cython

在工程中创建一个build_pyd.py 文件，目的是生成对应文件的pyd文件：

from distutils.core import setup
from Cython.Build import cythonize
setup(
    name='any words.....',
    ext_modules=cythonize(["one.py", "two.py", ]),
)

触发脚本执行，生成pyd：

python build_pyd.py build_ext --inplace

生成的pyd在同级目录的同名目录下，如图：

做完前期操作之后开始打包，打包方式不变，除了程序的入口py文件可以被反编译，其他自己开发的文件解压之后都是pyd文件，两种情况的对比：

注意注意注意

出错的一个点，自己的部分代码/三方库没有打包进去。调整现有代码结构，增加一个py文件，只作为程序入口，同时这个文件中引入整个程序用到的三方库，目的是打包的时候给三方库打包进去。
下面图片中就是缺少 import了自己编写的库，把import加上，重新打包就可以了：

🆙技能增加中🆙

Python-打包的exe还原

起因

还原

Fortinet - 在 Windows 和 Linux 上解压 Python 可执行文件

包装

在 Windows 上解包 python < 3.9

在 Linux 上解压 python >= 3.9

结论

new和光同尘 - 将pyinstaller打包后的exe还原成py / 防止还原

1. 将exe文件解压

2. 获取pyc文件

3. 反编译pyc文件

安装uncompyle6

反编译

4. 复杂的脚本

但是但是请注意

5. 防止还原

步骤如下

安装cython

注意注意注意

参考

windows下用pyinstaller 打包pyd编译文件

PyInstaller将Python文件打包为exe后如何反编译（破解源码）以及防止反编译

Python-打包的exe还原

起因

还原

Fortinet - 在 Windows 和 Linux 上解压 Python 可执行文件

包装

在 Windows 上解包 python < 3.9

在 Linux 上解压 python >= 3.9

结论

new和光同尘 - 将pyinstaller打包后的exe还原成py / 防止还原

1. 将exe文件解压

2. 获取pyc文件

3. 反编译pyc文件

安装uncompyle6

反编译

4. 复杂的脚本

但是 但是 请注意

5. 防止还原

步骤如下

安装cython

注意 注意 注意

参考

windows下用pyinstaller 打包pyd编译文件

PyInstaller将Python文件打包为exe后如何反编译（破解源码）以及防止反编译

但是但是请注意

注意注意注意