微信公众号反爬做的愈加严格,不建议直接去爬微信公众号的文章。因为即使当下找到了一种解决方案爬到了数据,过段时间微信发现了这个方案就失效了,可能之前开发的代码就完全废掉了。

考虑到目前存在很多使用rss阅读新闻的网友,他们为了能够获取到微信公众号文章的推送,经常会研究甚至开发出新的rss地址来获取公众号推文。因此我建议同步方案基于rss地址来开发。

优点

  1. 不论微信公众号反爬再怎么更新,我们rss订阅源的提供商会想办法保证rss地址能用。
  2. 即使rss订阅源失效了,我们也只需要换一个rss订阅源而已,代码不用动。
  3. rss地址的数据是xml格式的,后端读取解析非常方便。

实现逻辑

  1. 增加栏目与rss地址的关联
  2. 增加定时任务,定时通过rss地址查询内容
  3. 一旦发现rss地址中的内容更新了,把新的内容填入该栏目的新闻表中。

补充说明:

  1. 后续rss地址更新了内容后,会把最新的内容更新到对应的栏目下。
  2. 该栏目在系统中的人工修改依然有效。

RSS源

瓦斯阅读

今天看啥

  • 最低资费:60元/年,最多可以订阅15个帐号
  • 更新实时性:
    • 普通模式:5分钟至2-3天。
    • 极速模式:缩短至分钟级别(每个账号需要多支付2元)
  • 产品地址:http://www.jintiankansha.me/about/rss

WeRss

  • 最低资费:35元/年,可关联8个公众号
  • 更新实时性:<12小时延迟(平均)
  • 产品地址:https://werss.app

拓展阅读

RSS订阅相关