不务正业的FunDemo - [⭐趣玩]新闻文本提取器 - 《📕Record》

源码：https://github.com/kingname/GeneralNewsExtractor

GeneralNewsExtractor（GNE）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。
使用方式也非常简单：

from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '网站源代码'
result = extractor.extract(html)
print(result)

本项目取名为 抽取器 ，而不是 爬虫 ，是为了规避不必要的风险，因此，本项目的输入是 HTML源代码，输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

超级好用，基本可以完美爬取任何网站的新闻！！！

example：**

import pandas as pd
from gne import GeneralNewsExtractor
import requests
# 获取html
url = "http://edu.people.com.cn/n1/2021/0504/c1006-32094364.html"
rep = requests.get(url)
source = rep.content.decode("gbk",errors='ignore')
# 创建GNE提取器
extractor = GeneralNewsExtractor()
# 传入输入（html）得到结果
result = extractor.extract(source)
# 结果以{“title”，“author”，“publish_time”，“content”，“images”}的字典类型进行返回
print(result)