之前的抖音爬取的难点,是滑块和机器检测的问题,处理方案是用FX浏览器+一个训练好的AI模型来处理滑块,这样解决的。

    2月23日抖音进行了一波升级,改变了页面结构,更主要的是升级了程序操作浏览器的检测方案,直接导致程序驱动的FX浏览器获取不到信息,打开就是白屏。用常规Google浏览器虽然页面上有信息返回,但滑块问题处理不了(程序滑动会被抖音检测到从而不被认可),会陷入到之前的困境。

    没办法,开始寻找和测试更多的浏览器,测试了Opera、开发版edge后,前者面临和Google浏览器一样的问题,后者在Linux环境启动面临诸多困难,这条路也走不通。

    对接上抖音的bug反馈群,只好死马当活马医,以用户的身份反应了白屏的问题,后来抖音方有所缓解,FX浏览器初期启动有了数据,但后续又是白屏,没法稳定的爬取。

    我这里已经没有了办法,开始请教大神,我找了之前的K哥,K哥介绍了另一个人L哥给我,L哥表示这涉及到他当前公司业务,没法交流,威逼利诱下也依然守口如瓶,我再次回到原点。

    没有路可走的时候,就回头看看自己走过的路。各大平台依然有最新的数据,说明抖音这次改动没有造成很大影响,L哥也没表示出很难的意思,那说明很可能是在原来的方案上进行的修改。我回溯原来的爬取方案,去掉了隐藏程序驱动的设置,然后就有了数据,而且滑块的频率也低很多。不要问我为什么会想到这个方案,爬取和反爬的对抗是一件百转千回的事,刹那的想法加上多试一次,也许会抓到对方的漏洞,可以在夹缝中获得一丝喘息的机会。删繁就简,自断其臂,对方就抓不住我们的弱点。