参考博客:
使用 Locust 编写压力测试脚本
总共 100 个模拟用户,启动时每秒递增 10 个,压力测试持续 3 分钟
- 配置 4核8G CPU (6层小模型占用内存约 700MB)
- 小服务器上 bert-as-service 服务非常不稳定(tensorflow各种报错), 效率不如简单封装的 TransformersEncoder
- FastAPI 框架速度远胜于 Flask,的确堪称最快的 Python Web 框架
- cache 的使用能够大大提高并发量和响应速度(最大缓存均设置为500)
- 最终推荐配置 TransformersEncoder + FastAPI + functools.lru_cache