原创 光舟 光舟 2022-01-14 22:31
背景
国内的社交媒体互联网已经走过了大水漫灌的时代,对优质的用户进行精准用户画像和精细化运营,不仅能加强用户的获得感和满足感,而且能助力社交媒体平台产生更多优质内容从而吸引更多潜在用户,产生更大的社会影响力。
提出问题往往比解决问题有更重要的意义
为了进一步对数量庞大的腰部用户进行精细化运营,社交媒体平台一般都采用用户画像算法对用户建立的各式各样的标签并划分成不同类别进行运营。其中,用户垂类领域是一类常用的用户画像标签。所谓垂类领域,是根据用户发布内容类别对用户进行分类的一种方式。通过对用户的垂类领域画像,在实际业务中就能针对不同垂类领域的用户分门别类地运营。在实际业务中,用户画像和垂类打标的任务往往是离线运行,对时效性要求并不高,因此如何利用用户发布的丰富的多媒体信息提高垂类用户打标的准确率成了一个重要的问题。
现有纯文本分类方法没有用到图像和视频信息
随着科技不断发展进步,图文内容和短视频内容在社交媒体上所占比例不断提高,逐步成为用户画像不可忽略的信息。在垂类用户打标过程中,如果只利用图文内容和短视频内容中的文本信息,由于文本的指代歧义与图像信息的缺失,统计学习方法难以提取有效信息并给出正确的分类结果。那么,能不能针对图文内容和短视频内容打标,专门设计一种打标策略呢?短视频本质上是多张图像的集合,因此可能需要一个专门的模型,这个模型能够把图像和文本信息有效地融合并从中提出去有利于打标的图文融合特征信息,利用这类特征对图文内容和短视频内容打标很有可能产生比纯文本特征更高的准确率。基于这点考虑,我对图文多模态融合技术展开了调研。
图文多模态融合技术已经相当成熟,现有的多模态方法主要有四个步骤:图像特征提取、文本特征提取、图文特征融合交互、完成下游分类或检索任务。围绕这四个环节,我分别调研了4类图像特征提取算法和4类文本特征提取算法,以及10个多模态融合开源项目,比如近期开源的NÜWA、Lichee、Mengzi、X-modaler…同时我也总结了在模型搭建训练和部署过程中遇到的6类工程实践问题。最终,gRPC模型部署服务落地,使得原有用户画像业务中的内容分析服务从纯文本分类进入图文并茂的多模态算法时代,显著提升了用户打标的准确率。
求关注,不迷路
你好,我是光舟,
北理硕,中农本,计算机科班。
目前在互联网大厂做算法工程师,
业务方向是社交媒体数据挖掘,
包括社交网络用户画像、内容分类和检索等。
小目标是每周至少三篇原创文章,
记录前沿技术、职场感悟、人生规划,
与你共同成长,用AI给人生加分!