安装 & 设置(2023 版)
1. 基础安装
pip install crawl4ai
这将安装 核心 Crawl4AI 库以及必要的依赖项。不会包含高级功能(如 transformers 或 PyTorch)。
2. 初始化设置 & 诊断
2.1 运行设置命令
安装后,执行:
crawl4ai-setup
它会做什么?
- 安装或更新所需的 Playwright 浏览器(Chromium、Firefox 等)
- 进行操作系统级别的检查(例如,在 Linux 上检查缺失的库)
- 确保你的环境已准备好进行爬取
2.2 诊断
你可以选择运行 诊断 命令,确认一切正常运行:
crawl4ai-doctor
这个命令会尝试:
- 检查 Python 版本兼容性
- 验证 Playwright 是否安装成功
- 检查环境变量或库冲突
如果出现问题,按照提示操作(例如安装额外的系统包),然后重新运行 crawl4ai-setup
。
3. 验证安装:执行一次简单爬取(如果已运行 crawl4ai-doctor
可跳过)
下面是一个最小化的 Python 示例,展示 基本 爬取过程。示例中使用了 BrowserConfig
和 CrawlerRunConfig
以增强可读性,但没有传入自定义配置:
import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig
async def main():
async with AsyncWebCrawler() as crawler:
result = await crawler.arun(
url="https://www.example.com",
)
print(result.markdown[:300]) # 显示提取文本的前 300 个字符
if __name__ == "__main__":
asyncio.run(main())
预期 结果:
- 无头浏览器会加载
example.com
- Crawl4AI 会返回约 300 个字符的 markdown 文本
如果出现错误,重新运行 crawl4ai-doctor
或手动确保 Playwright 已正确安装。
4. 高级安装(可选)
警告:仅当你确实需要时才安装。这些依赖项较大,会显著增加磁盘占用和内存消耗。
4.1 安装 Torch、Transformers 或全部组件
文本聚类(Torch)
pip install crawl4ai[torch]
crawl4ai-setup
安装基于 PyTorch 的功能(例如余弦相似度或高级语义分块)。
Transformers
pip install crawl4ai[transformer]
crawl4ai-setup
添加基于 Hugging Face 的摘要或生成功能。
所有功能
pip install crawl4ai[all]
crawl4ai-setup
(可选)预下载模型
crawl4ai-download-models
这个步骤会将大型模型缓存到本地。仅当你的工作流需要它们时才执行。
5. Docker(实验性)
我们提供了一个 临时 的 Docker 方案用于测试。它并不稳定,未来版本可能会失效。我们计划在 2025 年 Q1 进行重大 Docker 重构。如果你仍然想尝试:
docker pull unclecode/crawl4ai:basic
docker run -p 11235:11235 unclecode/crawl4ai:basic
然后,你可以向 http://localhost:11235/crawl
发送 POST 请求来执行爬取任务。
不建议用于生产环境,直到我们的新 Docker 方案正式发布(预计 2025 年 1 月或 2 月)。
6. 本地服务器模式(旧版)
一些旧文档提到可以将 Crawl4AI 作为本地服务器运行。
这种方式已经被 部分取代,目前有新的 Docker 原型以及即将发布的稳定版服务器。你可以尝试,但未来可能会有重大变更。官方的本地服务器指南将在新的 Docker 架构完成后发布。