硬核干货 | 图文多模态开源项目汇总，总有一款适合你！ - 《光舟算法笔记》

原创光舟光舟 2022-01-15 18:00
技术方法论
多模态技术 | ‘图文并茂’助力精准用户画像上期介绍了选择图文多模态技术的背景和在用户画像领域的应用场景，这期汇总了算法技术方案调研路线指引+图文多模态融合开源项目清单。

技术有深度，业务能落地，一致是我所努力追求的职业发展目标。为了算法能在业务中落地，需要进行广泛而系统的调研。作为一名算法工程师，在形成技术方案之前，应当有一套方法论广泛系统地展开调研。只有这样才能做到，技术有深度，业务能落地。欢迎各位留言补充或私信讨论~

算法项目调研方法总结：
1、技术社区：比如知乎、简书、Reddit、Medium、Quora、towardsdatascience等等
2、开源项目和文档：Github、Apache、paperwithcode、开源中国等
3、工业应用实践：比如来自互联网公司的技术博客、Datafun等社区等
4、学术论文和研究成果：arxiv、PQDT、学术会议和期刊论文等
5、向同行或前辈请教讨论
…
总之，调研和讨论在初期可能会耽误时间，但是如果碰到合适的开源项目可以借鉴，那实在是节约了很多时间。下面是我做图文多模态分类项目时阅读的开源项目清单。

10个多模态分类开源项目（向开源精神致敬）
l X-modaler是京东探索研究院2021年提出的一个跨模态分析的多功能和高性能的代码库，涵盖了视觉语言多模态技术中的许多高质量工作的代码模块。这个框架把多模态任务抽象成几个通用的阶段（例如，预处理、编码器、跨模态交互、解码器和解码策略等），然后用面向对象的架构设计方式把十余种方法纳入框架。该项目斩获ACM Multimedia2021最佳开源项目奖https://github.com/YehLi/xmodaler
l Lichee是腾讯看点内容算法研发中心2021年提出的一个多模态内容理解算法框架项目，其中包含数据增强、预训练引擎、常见模型以及推理加速等模块。https://github.com/Tencent/Lichee
l Oscar（Object-Semantics-Aligned-pre-training）是微软2019年提出的一个跨模态预训练大模型，通过两阶段目标检测缩小图像和文本在特征学习过程中的鸿沟。https://github.com/microsoft/Oscar
l UNITER是ECCV2002提出的一种预训练大模型，用于图文多模态特征提取。https://github.com/ChenRocks/UNITER
l Mengzi是2021年澜舟科技提出的基于中文语料的预训练大模型，提供中文预训练语言理解模型Bert和中文多模态理解模型Oscar等多种开源预训练参数。https://github.com/Langboat/Mengzi
l MultiModal BiTransformers (MMBT)是FB在2019年提出的利用transformer结构进行多模态融合的方法，简单有效且无需预训练大模型。https://github.com/facebookresearch/mmbt，文章"Supervised Multimodal Bitransformers for Classifying Images and Text” https://arxiv.org/abs/1909.02950
l NÜWA（女娲）是2021年MSRA和北大联合提出的统一多模态预训练模型，可以为各种视觉合成任务生成新的或编辑现有的图像和视频数据。https://github.com/microsoft/NUWA，文章https://arxiv.org/pdf/2111.12417.pdf
l ActionCLIP是2021年浙大基于CLIP提出的多模态视频动作识别框架，用检索的思想做视频动作识别实现了优异的结果。https://github.com/sallymmx/ActionCLIP ，https://bbs.cvmart.net/articles/5815
l Uni-Perceiver是2021年商汤和西交提出的一种多模态通用感知架构，用预训练大模型提取不同模态的数据编码进行统一化向量表征。https://arxiv.org/pdf/2112.01522.pdf 没有开源
l ViLT是2021年韩国NAVER Labs提出的多模态融合模型，利用多层transformer叠加提取并融合图文特征https://github.com/dandelin/vilt
其他学术论文汇总
l 多模态学术论文分类汇总https://github.com/pliang279/awesome-multimodal-ml
根据‘路线指引’中的调研方法，我还进行了下面的调研：
文本特征提取算法
l 词袋模型BOW
l W2V/FastText
l TextCNN
l Transformer
图像特征提取算法
l SIFT/HOG
l CNN
l ViT
l SwinTransformer
项目中遇到的其他问题
l 训练数据样本不均衡/长尾分布问题
l 多标签分类中共现类别的建模问题
l Apex半精度加速训练问题
l 模型量化剪枝压缩和二次finetune问题
l 算法服务的RPC部署问题
l 模型部署时端侧实现推理加速问题
欢迎关注公众号光舟或加微信shiningboat
进行技术交流
在制定技术方案之前，我详细阅读了SwinTransformer、X-modaler、ViLT三个开源项目代码，并参考其中的设计模式绘制了模型架构UML类图。在这三个开源项目的基础上，我用几周时间从0到1自行搭建了一个高效易扩展的图文多模态深度学习特征提取框架。依托这个图文通用训练框架，后续工作中既可以方便地进行图像+文本多模态分类和检索，又能单独完成图像或者文本的特征提取。
硬核干货 | 图文多模态开源项目汇总，总有一款适合你！ - 图2

求关注，不迷路

你好，我是光舟，
北理硕，中农本，计算机科班。
目前在互联网大厂做算法工程师，
业务方向是社交媒体数据挖掘，
包括社交网络用户画像、内容分类和检索等。
小目标是每周至少三篇原创文章，
记录前沿技术、职场感悟、人生规划，
与你共同成长，用AI给人生加分！