CoreNet 是一个深度神经网络工具包,允许研究人员和工程师为各种任务训练标准和新颖的小型和大型模型,包括基础模型(例如 CLIP 和 LLM)、对象分类、对象检测和语义分割。
使用 CoreNet 进行的研究工作包括:
- OpenELM:具有开源训练和推理框架的高效语言模型系列
- CatLIP:在 Web-scale Image-Text DataCLIP 上以 2.7 倍的预训练速度实现 CLIP 级视觉识别准确率
- Reinforce Data, Multiply Impact:通过数据集强化提高模型准确性和稳健性
- CLIP meets Model Zoo Experts:视觉增强的伪监督
- FastVit:使用结构重参数化的 Fast Hybrid Vision Transformer
- Bytes Are All You Need: Transformers Operating Directly on File Bytes
- MobileOne:改进的 One millisecond Mobile Backbone
- RangeAugment:Efficient Online Augmentation with Range Learning
- Separable Self-attention for Mobile Vision Transformers (MobileViTv2)
- CVNets:高性能计算机视觉库,ACM MM’22
- MobileViT:轻量级、通用且适合移动设备的 Vision Transformer,ICLR’22
CoreNet 基于 CVNet 演变而来,涵盖计算机视觉之外更广泛的应用。它的扩展促进了包括 LLM 在内的基础模型的训练。
安装
您将需要 Git LFS(下面有说明)来运行此存储库中的测试和 Jupyter notebook(Jupyter),以及为其做出贡献,因此我们建议您首先安装并激活它。
在 Linux 上,我们建议使用 Python 3.10+ 和 PyTorch(版本 >= v2.1.0),在 macOS 系统上,Python 3.9+ 应该就足够了。
请注意,如果您想做出贡献和/或运行测试,下面列出的可选依赖项是必需的。
对于 Linux(将 apt
替换为您的包管理器):
sudo apt install git-lfs
git clone git@github.com:apple/corenet.git
cd corenet
git lfs install
git lfs pull
# 以下 venv 命令是可选的,但推荐使用。或者,您可以创建并激活一个 conda 环境。
python3 -m venv venv && source venv/bin/activate
python3 -m pip install --editable .
要安装音频和视频处理的可选依赖项:
sudo apt install libsox-dev ffmpeg
对于 macOS,假设您使用 Homebrew:
brew install git-lfs
git clone git@github.com:apple/corenet.git
cd corenet
cd \$(pwd -P) # 查看下面的注释。
git lfs install
git lfs pull
# 以下 venv 命令是可选的,但推荐使用。或者,您可以创建并激活一个 conda 环境。
python3 -m venv venv && source venv/bin/activate
python3 -m pip install --editable .
要安装音频和视频处理的可选依赖项:
brew install sox ffmpeg
请注意,在 macOS 上,文件系统是不区分大小写的,大小写敏感性可能会导致 Git 出现问题。您应该像访问磁盘上的存储库一样,使用大小写敏感的方式,即与您在列出目录 ls
时看到的相同大小写。您可以使用 cd $(pwd -P)
命令切换到这样的路径。