Dedup

Dedup是feapder大数据去重模块,不同于BloomFilter,去重受槽位数量影响,Dedup使用了弹性的去重机制,可容纳海量的数据去重。

去重方式

临时去重

基于redis,支持批量,去重有时效性。去重一万条数据约0.26秒,一亿条数据占用内存约1.43G

  1. from feapder.dedup import Dedup
  2. data = {"xxx": 123, "xxxx": "xxxx"}
  3. datas = ["xxx", "bbb"]
  4. def test_ExpireFilter():
  5. dedup = Dedup(
  6. Dedup.ExpireFilter, expire_time=10, redis_url="redis://@localhost:6379/0"
  7. )
  8. # 逐条去重
  9. assert dedup.add(data) == 1
  10. assert dedup.get(data) == 1
  11. # 批量去重
  12. assert dedup.add(datas) == [1, 1]
  13. assert dedup.get(datas) == [1, 1]

内存去重

基于内存,支持批量。去重一万条数据约0.5秒,一亿条数据占用内存约285MB

  1. from feapder.dedup import Dedup
  2. data = {"xxx": 123, "xxxx": "xxxx"}
  3. datas = ["xxx", "bbb"]
  4. def test_MemoryFilter():
  5. dedup = Dedup(Dedup.MemoryFilter) # 表名为test 历史数据3秒有效期
  6. # 逐条去重
  7. assert dedup.add(data) == 1
  8. assert dedup.get(data) == 1
  9. # 批量去重
  10. assert dedup.add(datas) == [1, 1]
  11. assert dedup.get(datas) == [1, 1]

永久去重

基于redis,支持批量,永久去重。 去重一万条数据约3.5秒,一亿条数据占用内存约285MB

  1. from feapder.dedup import Dedup
  2. def test_BloomFilter():
  3. dedup = Dedup(Dedup.BloomFilter, redis_url="redis://@localhost:6379/0")
  4. # 逐条去重
  5. assert dedup.add(data) == 1
  6. assert dedup.get(data) == 1
  7. # 批量去重
  8. assert dedup.add(datas) == [1, 1]
  9. assert dedup.get(datas) == [1, 1]

过滤数据

Dedup可以通过如下方法,过滤掉已存在的数据

  1. from feapder.dedup import Dedup
  2. def test_filter():
  3. dedup = Dedup(Dedup.BloomFilter, redis_url="redis://@localhost:6379/0")
  4. # 制造已存在数据
  5. datas = ["xxx", "bbb"]
  6. dedup.add(datas)
  7. # 过滤掉已存在数据 "xxx", "bbb"
  8. datas = ["xxx", "bbb", "ccc"]
  9. dedup.filter_exist_data(datas)
  10. assert datas == ["ccc"]

Dedup参数

  • filter_type:去重类型,支持BloomFilter、MemoryFilter、ExpireFilter三种
  • redis_url不是必须传递的,若项目中存在setting.py文件,且已配置redis连接方式,则可以不传递redis_url

    -w294

    1. import feapder
    2. from feapder.dedup import Dedup
    3. class TestSpider(feapder.Spider):
    4. def __init__(self, *args, **kwargs):
    5. self.dedup = Dedup() # 默认是永久去重
  • name: 过滤器名称 该名称会默认以dedup作为前缀 dedup:expire_set:[name]dedup:bloomfilter:[name]。 默认ExpireFilter name=过期时间,BloomFilter name=dedup:bloomfilter:bloomfilter

    -w499

    若对不同数据源去重,可通过name参数来指定不同去重库

  • absolute_name:过滤器绝对名称 不会加dedup前缀

  • expire_time:ExpireFilter的过期时间 单位为秒,其他两种过滤器不用指定
  • error_rate:BloomFilter/MemoryFilter的误判率 默认为0.00001
  • to_md5:去重前是否将数据转为MD5,默认是

爬虫中使用

框架支持对请求和入库的数据进行去重,仅需要在配置文件中进行配置即可

  1. ITEM_FILTER_ENABLE = False # item 去重
  2. REQUEST_FILTER_ENABLE = False # request 去重

或者可以直接导入此去重模块使用

  1. from feapder.dedup import Dedup