web scraping via heap snapshot

浏览 135 扫码分享 2022-09-22 23:54:49

ref: https://www.adriancooney.ie/blog/web-scraping-via-javascript-heap-snapshots
挺清奇的思路，当今的web页面几乎都是由各种框架产生，页面结构及其复杂，如果想通过爬取html的方式来获取一些数据，解析工作也是很难做的。
但这些框架都有state管理，相应的，页面的数据基本都会存在于内存state结构中，那么，通过heapdump来搜寻相关字段的数据结构就来得更直接方便了。