安装 & 设置（2023 版）

安装 & 设置（2023 版）

1. 基础安装

pip install crawl4ai

这将安装核心 Crawl4AI 库以及必要的依赖项。不会包含高级功能（如 transformers 或 PyTorch）。

2. 初始化设置 & 诊断

2.1 运行设置命令

安装后，执行：

crawl4ai-setup

它会做什么？

安装或更新所需的 Playwright 浏览器（Chromium、Firefox 等）
进行操作系统级别的检查（例如，在 Linux 上检查缺失的库）
确保你的环境已准备好进行爬取

2.2 诊断

你可以选择运行诊断命令，确认一切正常运行：

crawl4ai-doctor

这个命令会尝试：

检查 Python 版本兼容性
验证 Playwright 是否安装成功
检查环境变量或库冲突

如果出现问题，按照提示操作（例如安装额外的系统包），然后重新运行 crawl4ai-setup。

3. 验证安装：执行一次简单爬取（如果已运行 `crawl4ai-doctor` 可跳过）

下面是一个最小化的 Python 示例，展示基本爬取过程。示例中使用了 BrowserConfig 和 CrawlerRunConfig 以增强可读性，但没有传入自定义配置：

import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig
async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://www.example.com",
        )
        print(result.markdown[:300])  # 显示提取文本的前 300 个字符
if __name__ == "__main__":
    asyncio.run(main())

预期结果：

无头浏览器会加载 example.com
Crawl4AI 会返回约 300 个字符的 markdown 文本

如果出现错误，重新运行 crawl4ai-doctor 或手动确保 Playwright 已正确安装。

4. 高级安装（可选）

警告：仅当你确实需要时才安装。这些依赖项较大，会显著增加磁盘占用和内存消耗。

4.1 安装 Torch、Transformers 或全部组件

文本聚类（Torch）
```
  pip install crawl4ai[torch]
  crawl4ai-setup
```
安装基于 PyTorch 的功能（例如余弦相似度或高级语义分块）。
Transformers
```
  pip install crawl4ai[transformer]
  crawl4ai-setup
```
添加基于 Hugging Face 的摘要或生成功能。

所有功能

  pip install crawl4ai[all]
  crawl4ai-setup

（可选）预下载模型

crawl4ai-download-models

这个步骤会将大型模型缓存到本地。仅当你的工作流需要它们时才执行。

5. Docker（实验性）

我们提供了一个临时的 Docker 方案用于测试。它并不稳定，未来版本可能会失效。我们计划在 2025 年 Q1 进行重大 Docker 重构。如果你仍然想尝试：

docker pull unclecode/crawl4ai:basic
docker run -p 11235:11235 unclecode/crawl4ai:basic

然后，你可以向 http://localhost:11235/crawl 发送 POST 请求来执行爬取任务。
不建议用于生产环境，直到我们的新 Docker 方案正式发布（预计 2025 年 1 月或 2 月）。

6. 本地服务器模式（旧版）

一些旧文档提到可以将 Crawl4AI 作为本地服务器运行。
这种方式已经被 部分取代，目前有新的 Docker 原型以及即将发布的稳定版服务器。你可以尝试，但未来可能会有重大变更。官方的本地服务器指南将在新的 Docker 架构完成后发布。

安装