AI项目 - ChatPaper - 全流程加速科研 - 《AI知识库》

开源论文速读总结工具地址">开源论文速读总结工具地址
使用步骤">使用步骤
在线部署">在线部署
使用技巧">使用技巧

工具名称	工具作用	是否在线？	备注
ChatPaper	通过ChatGPT实现对论文进行总结，帮助科研人进行论文初筛	访问wangrongsheng/ChatPaper 使用	原项目地址
ChatReviewer	利用ChatGPT对论文进行优缺点分析，提出改进建议	访问ShiwenNi/ChatReviewer 使用	原项目地址
ChatImprovement	利用ChatGPT对论文初稿进行润色、翻译等	访问wangrongsheng/ChatImprovement 使用	原项目地址
ChatResponse	利用ChatGPT对审稿人的提问进行回复	访问ShiwenNi/ChatResponse 使用	原项目地址
ChatGenTitle	利用百万arXiv论文元信息训练出来的论文题目生成模型，根据论文摘要生成合适题目		原项目地址

开源论文速读总结工具地址

ChatPaper：https://chatpaper.org GitHub页面：https://github.com/kaixindelele/ChatPaper ## 技术原理论文总结遵循下面四个问题：

研究背景
过去的方案是什么？他们有什么问题？
本文方案是什么？具体步骤是什么？
本文在哪些任务中，取得了什么效果？

基本上是大家做论文汇报的主要内容了。实现细节：提取摘要和introduction的内容，因为abstract很少会告诉你过去的方案是什么，存在什么问题。然后提取method章节，总结方法的具体步骤最后提取conclusion章节，总结全文。分三次总结和喂入，如果每个部分超过了长度，则截断（目前这个方案太粗暴了，但也没有更好的更优雅的方案）作为初筛，勉强够用。

使用步骤

一、以脚本方式运行

Windows, Mac和Linux系统应该都可以 python版本最好是3.9，其他版本应该也没啥问题

在apikey.ini中填入你的openai key。注意，这个代码纯本地项目，你的key很安全！如果不被OpenAI封的话~ 小白用户比较多，我直接给截图示意下可能会更好：

ChatPaper - 全流程加速科研 - 图7

使用过程要保证全局代理！如果客户端时clash的话，可以参考这个进行配置:

ChatPaper - 全流程加速科研 - 图8

安装依赖：

pip install -r requirements.txt 4.1. Arxiv在线批量搜索+下载+总结：运行chat_paper.py，比如： python chat_paper.py —query “chatgpt robot” —filter_keys “chatgpt robot” —max_results 3 更准确的脚本是chat_arxiv.py，使用方案，命令行更加简洁： python chat_arxiv.py —query “chatgpt robot” —page_num 2 —max_results 3 —days 10 其中query仍然是关键词，page_num是搜索的页面，每页和官网一样，最大是50篇，max_results是最终总结前N篇的文章，days是选最近几天的论文，严格筛选！

注意：搜索词无法识别**-**，只能识别空格！所以原标题的连字符最好不要用！感谢网友提供的信息

4.2. Arxiv在线批量搜索+下载+总结+高级搜索：运行chat_paper.py，比如： python chat_paper.py —query “all: reinforcement learning robot 2023” —filter_keys “reinforcement robot” —max_results 3 💥💥💥7K星了，发布一个猫娘版提示词，希望大家一起让猫娘活起来~：脚本：chat_arxiv_maomao.py，** **总结图片 4.3. Arxiv在线批量搜索+下载+总结+高级搜索+指定作者：运行chat_paper.py，比如： python chat_paper.py —query “ti: Sergey Levine” —filter_keys “reinforcement robot” —max_results 3 4.4. 本地pdf总结：运行chat_paper.py，比如： python chat_paper.py —pdf_path “demo.pdf” 4.5. 本地文件夹批量总结：运行chat_paper.py，比如： python chat_paper.py —pdf_path “your_absolute_path” 4.6. 谷歌学术论文整理：运行google_scholar_spider.py，比如：

python google_scholar_spider.py --kw "deep learning" --nresults 30 --csvpath "./data" --sortby "cit/year" --plotresults 1

此命令在Google Scholar上搜索与“deep learning”相关的文章，检索30个结果，将结果保存到“./data”文件夹中的CSV文件中，按每年引用次数排序数据，并绘制结果。具体使用和参数请参考https://github.com/JessyTsu1/google_scholar_spider —- 另外注意，目前这个不支持综述类文章。 B站讲解视频：我把ChatPaper开源了！AI速读PDF论文和速通Arxiv论文 注意：key_word不重要，但是filter_keys非常重要！ 一定要修改成你的关键词。另外关于arxiv的搜索关键词可以参考下图：

ChatPaper - 全流程加速科研 - 图9

参数介绍：

[--pdf_path 是否直接读取本地的pdf文档？如果不设置的话，直接从arxiv上搜索并且下载] 
[--query 向arxiv网站搜索的关键词，有一些缩写示范：all, ti(title), au(author)，一个query示例：all: ChatGPT robot] 
[--key_word 你感兴趣领域的关键词，重要性不高] 
[--filter_keys 你需要在摘要文本中搜索的关键词，必须保证每个词都出现，才算是你的目标论文] 
[--max_results 每次搜索的最大文章数，经过上面的筛选，才是你的目标论文数，chat只总结筛选后的论文] 
[--sort arxiv的排序方式，默认是相关性，也可以是时间，arxiv.SortCriterion.LastUpdatedDate 或者 arxiv.SortCriterion.Relevance， 别加引号] 
[--save_image 是否存图片，如果你没注册gitee的图床的话，默认为false] 
[--file_format 文件保存格式，默认是markdown的md格式，也可以是txt] 
parser.add_argument("--pdf_path", type=str, default='', help="if none, the bot will download from arxiv with query")
parser.add_argument("--query", type=str, default='all: ChatGPT robot', help="the query string, ti: xx, au: xx, all: xx,")    
parser.add_argument("--key_word", type=str, default='reinforcement learning', help="the key word of user research fields")
parser.add_argument("--filter_keys", type=str, default='ChatGPT robot', help="the filter key words, 摘要中每个单词都得有，才会被筛选为目标论文")
parser.add_argument("--max_results", type=int, default=1, help="the maximum number of results")
parser.add_argument("--sort", default=arxiv.SortCriterion.Relevance, help="another is arxiv.SortCriterion.LastUpdatedDate")    
parser.add_argument("--save_image", default=False, help="save image? It takes a minute or two to save a picture! But pretty")
parser.add_argument("--file_format", type=str, default='md', help="导出的文件格式，如果存图片的话，最好是md，如果不是的话，txt的不会乱")

二、以Flask服务运行

git clone https://github.com/kaixindelele/ChatPaper.git
cd ChatPaper

在项目根目录下的 apikey.ini 文件中填入您的 OpenAI 密钥。
配置虚拟环境并下载依赖

pip install virtualenv 
安装虚拟环境工具
virtualenv venv 
新建一个名为venv的虚拟环境
Linux/Mac下:
source venv/bin/activate
Windows下:
.\venv\Scripts\activate.bat
pip install -r requirements.txt

启动服务

python3 app.py
# 启动 Flask 服务。运行此命令后，Flask 服务将在本地的 5000 端口上启动并等待用户请求。在浏览器中访问以下地址之一以访问 Flask 服务的主页：
# http://127.0.0.1:5000/
# 或
# http://127.0.0.1:5000/index

访问 http://127.0.0.1:5000/ 后，您将看到主页。在主页上，您可以点击不同的链接来调用各种服务。您可以通过修改链接中的参数值来实现不同的效果。有关参数详细信息，请参阅上一步骤中的详细介绍

ChatPaper - 全流程加速科研 - 图10

特别的，这四个接口实际是封装了根目录下四个脚本的 web 界面。参数可以通过链接来修改。例如要运行“arxiv?query=GPT-4&key_word=GPT+robot&page_num=1&max_results=1&days=1&sort=web&save_image=False&file_format=md&language=zh”的话，相当于在根目录下调用 chat_arxiv.py 并返回结果。这个显示的结果和在命令行中调用的结果是一样的（即：python chat_arxiv.py —query “GPT-4” —key_word “GPT robot” —page_num 1 —max_results 1 —days 1 —sort “web” —save_image False —file_format “md” —language “zh”）。您可以通过修改参数来获得其他搜索结果。如果以这种方式部署的话，结果会保存在同级目录下新生成的export、pdf_files 和response_file三个文件夹里

三、以docker形式运行

安装docker和docker-compose，可以参考以下链接https://yeasy.gitbook.io/docker_practice/install https://yeasy.gitbook.io/docker_practice/compose/install
找地方放项目根目录下的“docker-compose.yaml”文件，将21行的YOUR_KEY_HERE替换为自己的openai_key
在同级目录下在命令行运行

docker-compose up -d

这样的界面代表一些正常，随后访问https://127.0.0.1:28460/ 就可以从网页上打开了!

特别的，如果有改进项目的想法，您可以查看 build.sh、dev.sh、tagpush.sh这三个脚本以及根目录docker目录下文件的作用，相信它们会对你容器化封装项目的思想有进一步提升
所有的运行结果都被保存在 Docker 的 volumes 中，如果想以服务的形式长期部署，您可以将这些目录映射出来。默认情况下，它们位于 /var/lib/docker/volumes/ 下。您可以进入该目录并查看 chatpaper_log、chatpaper_export、chatpaper_pdf_files 和 chatpaper_response_file 四个相关文件夹中的结果。有关 Docker volumes 的详细解释，请参考此链接：http://docker.baoshu.red/data_management/volume.html。

在线部署

在Hugging Face 创建自己的个人账号并登录；
进入ChatPaper主仓库：https://huggingface.co/spaces/wangrongsheng/ChatPaper ，您可以在Files and Version 看到所有的最新部署代码；
[可选]私有化部署使用：点击Duplicate this space ，在弹出的页面中将Visibility选择为Private，最后点击Duplicate Space，Space的代码就会部署到你自己的Space中，为了方便自己每次调用可以不用填写API-key，您可以将app.py#L845 修改为您的密钥：default=”sk-abcdxxxxxxxx” ，点击保存文件就会立即重新部署了；
[可选]公有化部署使用：点击Duplicate this space ，在弹出的页面中将Visibility选择为Public，最后点击Duplicate Space，Space的代码就会部署到你自己的Space中，这样就可以完成一个公有化的部署。

注：公有化部署和私有化部署根据你的需求二选一即可！

使用技巧

快速刷特定关键词的论文，不插图的话，每张篇文章需要花一分钟，阅读时间差不多一分钟。本项目可以用于跟踪领域最新论文，或者关注其他领域的论文，可以批量生成总结，最大可生成1000（如果你能等得及的话）。虽然Chat可能有瞎编的成分，但是在我的规范化提问的框架下，它的主要信息是保熟的。数字部分需要大家重新去原文检查！

ChatPaper - 全流程加速科研