目标:掌握怎么利用 redis 实现增量式爬虫


    一:怎么利用 redis 实现增量式爬虫

    实现重要方法:

    第一步:在进行爬取指定url数据时,先将指定 url 写入到 redis 数据库集合内,获取返回值!
    写入redis集合方法:连接数据库对象.sadd(键名,键名所对应的值)

    第二步:如果返回值是1,就说明这个url还未加入到url指纹数据库内(未爬取),可进一步爬取当前url数据,如果返回值为 0 说明当前经过md5加密后的url已经加入到url指纹数据库内,无需爬取,退出程序(只适用于电商新闻类网站!)


    实现原理:因为 redis 数据库的集合具有无序性以及数据唯一性!,当数据在redis集合内存在时,插入数据失败返回值为o