AI资料 - AI工具 - 《AI学习相关》

dify 是一款专注于创建和运行基于 GPT-4 模型的 AI 原生应用程序的 AI 工具。它为团队提供易于使用的 llmops 平台来开发 AI 应用程序并进行可视化操作。通过 dify，用户可以创建 AI-无论是内部团队使用还是外部发布，只需几分钟即可启动应用程序，并在短短 5 分钟内快速部署它们。

https://dify.ai/?via=topaitools

https://github.com/langgenius/dify/blob/main/README_CN.md

App工具

安卓

AITranslator：开源软件，特色是有lOS般的线性震动体验，Ul界面美观(跟openaitranslator相似)，有内置提示词

AMA:全平台：简约美观

IOS：

OpenCat：这个是ios功能最稳定的app，熊猫吃短信的作者，支持键盘拓展(开会员才能用的功能58)

Point：开发者更新频率非常高，群里有任何意见都会考虑，最近是一天一更，目前令我惊艳的功能有语音输入语音播报，知识库，文件管理，内置提示词，Jarvis（语音助手）。..….

openai-translator/README-CN.md at main · openai-translator/openai-translator

其他工具导航

AI工具导航

AI工具集导航 | 500+ AI工具导航大全，国内外AI工具集合网站

华为诺亚方舟实验室与其他研究机构的研究者合作，提出了开创性的文本到图像（T2I）模型PixArt-α。该模型支持直接生成高达1024×1024的高分辨率图像，且只需Stable Diffusion v1.5训练时间的10.8%。相比更大的SOTA模型RAPHAEL，PixArt-α的训练成本仅为1%左右，约为2.6万美元，可以省下近30万美元。此外，PixArt-α模型不仅大幅降低了训练成本，还显著减少了二氧化碳排放，同时提供了接近商业应用标准的高质量图像生成。

论文地址： https://arxiv.org/abs/2310.00426 项目地址: https://github.com/PixArt-alpha/PixArt-alpha

https://mp.weixin.qq.com/s/7dg6O5jmBwZ-1_LoiMvTlw

面壁智能联合清华推出AI智能体Xagent

https://github.com/OpenBMB/XAgent/blob/main/README_ZH.md

海AI实验室已经正式开源了全球首个城市级NeRF实景三维大模型“书生·天际”（LandMark）书生·天际官网：
https://landmark.intern-ai.org.cn
开源地址：
https://github.com/InternLandMark/LandMark
论文地址：
https://city-super.github.io/gridnerf

昆仑万维宣布开源了名为”天工”（Skywork-13B）的百亿级大语言模型系列，并即将全面开放商用。同时，他们还开源了一个高质量的中文数据集”Skypile/Chinese-Web-Text-150B”，该数据集包含600GB大小和1500亿标记。据介绍，”天工”（Skywork-13B）系列目前包括两个模型：Skywork-13B-Base模型和Skywork-13B-Math模型，它们在中文能力上在CEVAL、GSM8K等多个权威评测和基准测试中表现出色。在中文科技、金融、政务等领域，它们的表现都高于其他开源模型。

Skywork-13B下载地址(Model Scope)：

https://modelscope.cn/organization/skywork

Skywork-13B下载地址(Github)：

https://github.com/SkyworkAI/Skywork

AI视频创作软件Wondershare

https://miao.wondershare.cn/

Baichuan 2 是百川智能推出的新一代开源大语言模型

https://github.com/baichuan-inc/Baichuan2

https://top.aibase.com/tool/baichuandamoxing

vivo发布了自己的通用AI大模型矩阵——蓝心大模型

https://developers.vivo.com/product/ai/bluelm

AI工具

https://www.aihub.cn/

元象XVERSE

https://github.com/xverse-ai

网易有道开源“易魔声”语音合成引擎

https://github.com/netease-youdao/EmotiVoice/blob/main/README.zh.md

视觉语言大模型Video-LLaVA开源

https://github.com/PKU-YuanGroup/Video-LLaVA

CCI中文互联网语料库智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI HuggingFace开源地址： https://huggingface.co/datasets/BAAI/CCI-Data 堆友：https://d.design/ Pic Copilot：https://www.piccopilot.com/ 鹿班AI：https://luban.aliyun.com/ Meta推出了实时翻译系统Seamless 开源地址：
https://github.com/facebookresearch/seamless_communication
Demo地址：
https://seamless.metademolab.com/expressive

华中科技大学软件学院发布了名为”Monkey”的多模态大模型，擅长图像描述和视觉问答。Monkey在18个数据集上的实验中表现出色，超越了微软的LLAVA、谷歌的PALM-E和阿里的Mplug-owl等知名模型。它在文本密集的问答任务中显示出显著优势，并在某些样本上超越了GPT-4V。Monkey具有出色的”看图说话”能力，能够感知图像细节，并能处理高达1344 x 896像素的图像，是其他模型能处理尺寸的6倍。该团队已将Monkey代码开源于GitHub。

开源地址：https://github.com/Yuliang-Liu/Monkey 音频声音转换：

https://huggingface.co/spaces/amphion/singing_voice_conversion

阿里巴巴推出的名为AnyText的AI绘图工具，能够准确地在图片中添加文字，并且支持中英日韩四种语言。该工具的特点包括文字位置任意指定、支持多种文字风格与材质模仿，以及能够修改图片中已有的文字。它基于扩散模型开发，采用了分模块的方式来生成文字并嵌入到图像中，以提高书写精度和文字与背景的一致性。同时，AnyText的部署方式和对比测试结果，展示了它在文字准确度和图像生成方面的优势。

论文地址：
https://arxiv.org/abs/2311.03054
GitHub：
https://github.com/tyxsspa/AnyText
魔搭社区：
https://modelscope.cn/models/damo/cv_anytext_text_generation_editing/summary

上海AI实验室与香港中文大学开源AI音频生成平台Amphion

AI工具 - 图1

上海AI实验室与香港中文大学（深圳）联合团队推出了AI音频生成平台安菲翁（Amphion）。该平台具备语音及歌声合成转换、音效及音乐生成等多种能力，能够实现转换过程可视化。目前，该平台已经开源并提供免费商用。论文链接：arxiv.org/abs/2312.09911 开源链接：github.com/open-mmlab/Amphion

https://mp.weixin.qq.com/s/Cjsutc54MgqANMtZj3pOKg

网易有道宣布他们自主研发的知识库问答引擎QAnything正式开源。QAnything的主要原理是基于检索增强的生成（RAG），支持云端大模型服务调用，也支持纯本地部署。用户可以在开源社区Github内免费下载该系统。该系统支持多种文档格式，包括Word、PPT、Excel、PDF、图片等，用户可以直接导入这些格式的文档进行问答。

下载地址：https://github.com/netease-youdao/Qanything

https://mp.weixin.qq.com/s/kFOqYqhpy0Q4OvvGul-3qA

上海AI实验室开源发布书生·浦语数学

https://modelscope.cn/organization/Shanghai_AI_Laboratory

通义千问大模型（Qwen）的1.5版开源发布，包括六个不同尺寸的型号：0.5B、1.8B、4B、7B、14B和72B。其中，最强版本的性能超过了GPT-3.5，相关技术已经上线通义千问官网和通义千问App。 GitHub地址：https://qwenlm.github.io/blog/qwen1.5/

来自香港中文大学MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究人员共同提出AnimateLCM-SVD-xt的视频生成模型，该模型通过一种解耦的一致性学习策略，在图像和视频数据上进行训练，以提高训练效率。同时，引入了Teacher-Free自适应策略，使控制适配器更符合一致性模型，实现更好的可控视频生成。实验证明该方法在文本到视频生成任务中取得了最佳性能。

在线体验地址：
https://huggingface.co/spaces/wangfuyun/AnimateLCM https://animatelcm.github.io/ https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt FastChat是开源大模型列表中的一员（详见文章：open-llms 开源可商用的优秀大模型资源库），FastChat是一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台。其核心功能包括： •最先进模型的权重、训练代码和评估代码（例如Vicuna、FastChat-T5）。•基于分布式多模型的服务系统，具有Web界面和与OpenAI兼容的RESTful API。效果体验体验地址为：https://chat.lmsys.org/

https://cloud.tencent.com/developer/article/2297923

https://github.com/lm-sys/FastChat

浙江大学、微软亚洲研究院、北京大学提出大一统视频编辑框架UniEdit

AI工具 - 图2

浙江大学、微软亚洲研究院和北京大学的研究人员提出UniEdit基于文本描述的视频编辑统一框架。该框架是一个无需调整的工具，利用预先训练的文本到视频生成器功能，在反向生成框架中支持视频运动和外观编辑。通过大量实验证明，UniEdit涵盖了视频动作编辑和各种外观编辑场景，并且在性能上超越了目前最先进的方法。论文地址：https://arxiv.org/abs/2402.13185 项目地址：https://jianhongbai.github.io/UniEdit 代码地址：https://github.com/JianhongBai/UniEdit

Stability AI与VAST合作推出TripoSR，快速将单图转3D模型

AI工具 - 图3

Stability AI宣布与国内的3D生成模型公司VAST合作，共同开源TripoSR的快速3D物体重建模型。这款模型能够在1秒内从单张图像生成高质量的3D模型。TripoSR在低推理预算下运行，适用于没有GPU的用户。在英伟达A100上进行测试后，它能够在大约0.5秒内生成草稿质量的3D输出（带有纹理网格），表现优于其他开源的图像转3D模型，如OpenLRM。根据MIT许可，TripoSR模型的权重和源代码可供下载，允许商业、个人和研究用途。项目地址：https://github.com/VAST-AI-Research/TripoSR 技术报告：https://stability.ai/s/TripoSR_report.pdf

https://stability.ai/news/triposr-3d-generation?utm_source=x&utm_medium=website&utm_campaign=blog

阿里团队提出了一种名为免调谐噪声校正（Tuning-Free Noise Rectification）的有效方法，可用于主流视频扩散模型。该方法通过补充更准确的图像信息和噪声校正来实现高保真度。具体而言，该方法在给定指定图像时，首先向输入图像潜在地添加噪声以保留更多细节，然后通过适当的校正对潜在的噪声进行去噪，以减轻噪声预测偏差。此外，该方法无需调整即可使用。论文链接：
https://noise-rectification.github.io/ 国内视频创业公司七火山发布了名为Etna的文生视频模型，该模型能够生成8至15秒长的视频，每秒达到60帧。该公司成立于2023年12月，CTO Jason Huang在接受媒体采访时表示，通过尝试与OpenAI合作，验证了一种技术路线的可行性。他们将七火山的模型从原先的单一扩散模型转向与Transformer相结合的方向，仅用了两周时间就取得了显著成效。七火山尚未公布其文生视频模型的开放进度。

智源：通用计算机控制智能体框架Cradle

AI工具 - 图4

北京智源人工智能研究院与新加坡南洋理工大学、北京大学联合提出了通用计算机控制（GCC）技术，即智能体可以像人类一样使用键盘和鼠标来完成计算机上的各种任务。他们的研究团队提出了名为Cradle的通用计算机控制智能体框架，使智能体能够直接控制键盘、鼠标和与任何软件进行交互，而无需依赖任何内部API。这项技术不受软件开源或闭源的限制，甚至可以用于玩商业3A游戏大作如《荒野大镖客2》。论文链接：https://arxiv.org/abs/2403.03186
项目主页：https://baai-agents.github.io/Cradle/
代码链接：https://github.com/BAAI-Agents/Cradle

Colossal-AI开源Open-Sora 1.0视频生成模型

AI工具 - 图5

Colossal-AI发布Open-Sora 1.0视频生成模型的开源版本，包括了模型权重、训练源代码和详细的架构。该模型采用了Diffusion Transformer（DiT）架构。据悉，该团队基于使用了DiT架构的开源文生成模型PixArt-α，引入了时间注意力层，并将其扩展到了视频数据领域。 GitHub地址：https://github.com/hpcaitech/Open-Sora

https://twitter.com/YangYou1991/status/1769411544083996787