源码:https://github.com/kingname/GeneralNewsExtractor

    GeneralNewsExtractor(GNE)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
    使用方式也非常简单:

    1. from gne import GeneralNewsExtractor
    2. extractor = GeneralNewsExtractor()
    3. html = '网站源代码'
    4. result = extractor.extract(html)
    5. print(result)

    本项目取名为 抽取器 ,而不是 爬虫 ,是为了规避不必要的风险,因此,本项目的输入是 HTML源代码,输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

    超级好用,基本可以完美爬取任何网站的新闻!!!

    example:**

    1. import pandas as pd
    2. from gne import GeneralNewsExtractor
    3. import requests
    4. # 获取html
    5. url = "http://edu.people.com.cn/n1/2021/0504/c1006-32094364.html"
    6. rep = requests.get(url)
    7. source = rep.content.decode("gbk",errors='ignore')
    8. # 创建GNE提取器
    9. extractor = GeneralNewsExtractor()
    10. # 传入输入(html)得到结果
    11. result = extractor.extract(source)
    12. # 结果以{“title”,“author”,“publish_time”,“content”,“images”}的字典类型进行返回
    13. print(result)

    image.png