让大模型讲人话,“天工”有何不同? 望月 虎嗅APP 2023-04-24 21:25 发表于北京


现在,还没发布大模型的科技公司,在行业里已经显得有点非主流了。
微软和OpenAI联手烧起来的大模型之火还没燃完一个月,国内大模型已经开始卷起来。今年四月可以称为国内大模型的肇始之月。继百度在3月底发布文心一言后,阿里、腾讯、字节等行业巨头,以及商汤、知乎等细分领域玩家都陆续发布了自己的大模型产品。科技公司扎堆大模型,这次真的不能怪它们喜欢抢热点。

除了资本市场热捧ChatGPT概念所能带来的短期资本效应外,向市场发布大模型的更重要意义,在于让产品能够源源不断地吸收到最新的数据和用户反馈,进而转动数据、技术互相驱动的飞轮。也就是说,谁先下场,谁就最有可能在实际场景里实现技术赶超。

一众发布了大模型的公司中,4月17日正式发布的千亿级大语言模型“天工”是话不多的那一个,却公开表示“天工”3.5是第一个真正实现智能涌现的国产大语言模型,已“非常接近OpenAI ChatGPT的智能水平”。

“天工”大模型由昆仑万维和AI团队奇点智源共同打造,作为一家上市公司,昆仑万维给予了旗下大模型非常高的评价,“天工”表现到底如何?我们特地测了测。

聪明的大模型长啥样

据官方介绍,天工比较擅长知识问答、文案撰写、灵感助手、代码生成、语言翻译和学习指导。且天工具备超强记忆,支持20+轮次交互。
多轮交互考验大模型的上下文编码和动态记忆机制,能不能实现多轮交互不仅是衡量大模型水平的标准,也关乎着其在现实中的应用价值(如客服场景等)。
因此,第一个测试就从多轮交互开始。第一个问题是一个比较笼统的问题,天工给出的答案中规中矩。
让大模型讲人话,“天工”有何不同? - 图1

在此基础上,开始加限定条件。
让大模型讲人话,“天工”有何不同? - 图2

对于这个即便在现实中也很难解决的问题,天工给出的解决方案还是比较全面的。之后,将测试问题进一步细化,看看天工能给出什么答案。
让大模型讲人话,“天工”有何不同? - 图3

天工给出的答案涉及了辞职带娃的方方面面,考虑的还是比较周到的。那么最后,给定具体条件,请天工给出确定的建议。
让大模型讲人话,“天工”有何不同? - 图4

结合具体的条件,天工给出了直接建议:可以考虑辞职带娃,同时也再一次强调辞职带娃的风险。
可以看出,这个多轮对话测试还是能够反映出天工的水平的,其确实拥有不错的多轮对话能力,能够真正帮助用户解决问题。

难度升一下级,这一次,测试需求是虚构了一个公关危机事件,需要天工给出一份公关危机应对指南。
让大模型讲人话,“天工”有何不同? - 图5

天工给出的方案框架挺像模像样的,不过这毕竟只是个框架,缺乏实操细节,天工究竟智能到什么程度,还得细化prompt,于是这次测试提出了一个非常具体、有实操性的需求。
让大模型讲人话,“天工”有何不同? - 图6

面对具体需求,天工也很实际的向测试者要更多信息。于是输入了更加详细的prompt,提供了具体的公司名称、危机细节和危机公关目标。

让大模型讲人话,“天工”有何不同? - 图7

天工拟出的这份道歉声明,先解释了原委,从事实层面对事件做了说明,然后就是诚恳的向公众道歉,并且还给出了后续的解决方案——增加备货量,确保每位观众都能领到小礼物。可以说,一份合格的道歉声明所需要的元素,天工拟出的文本都涵盖了,虽然测试输入的prompt是虚构的,给定的信息有限,但天工的输出还是挺值得信赖的。而且在这个多轮对话中,天工的表现依然稳定。

此外,天工在实时性的事实回答上表现尤为突出。比如,天工知道最近的烧烤顶流是淄博。这意味着天工的训练数据更新十分及时,且天工对信息的提炼总结能力也是到位的。
让大模型讲人话,“天工”有何不同? - 图8

接着试试知识问答,提问设置了一个小陷阱,将“遇热”写成“预热”。天工没有被这个错别字迷惑,输出了正确答案。
让大模型讲人话,“天工”有何不同? - 图9

经过上面几个测试后,再来测测天工在逻辑和数理方面的能力。

先试一下代码生成能力。输入的prompt是帮忙写一个俄罗斯方块程序,然后天工一行行的输出了相应代码。
让大模型讲人话,“天工”有何不同? - 图10
让大模型讲人话,“天工”有何不同? - 图11

整体来说这个函数拆分逻辑是合格的。
最后,给天工输入了一个典型的思维陷阱题。在这道题目里,解题人很容易被冗余信息干扰而去计算答案,因此也能比较好的测试天工对信息的辨别能力。

一开始,天工还老老实实的去算了一下,很快它就识破了陷阱——根本不需要交换,两边本来就是各有50颗豆子。这个答题思路暴露了天工的思考过程,人工智能还是挺可爱的,让人想起思维透明的三体人。

让大模型讲人话,“天工”有何不同? - 图12

意犹未尽,再来一道经典数学题,鸡兔同笼都被测烂了,这次换一道。
让大模型讲人话,“天工”有何不同? - 图13

天工依旧给出了正确答案。

基于文、理两个方面测试的结果,天工的整体表现确实比较稳定,也能带来一些惊喜。一个表现相当不错的大模型产品诞生在昆仑万维,可能并不符合市场的一贯认知。甚至在官方推文中,昆仑万维自己也说“很多人不相信昆仑万维能做出大模型”。

不过,说得少不代表做得少,很多时候,扫地僧才是那个真正厉害的人。

有厚积才能薄发

作为当前AI领域最先进技术的代表,合格的大模型可不是做几页PPT就能实现的,其背后需要非常强的算力、数据、算法。天工之所以能有如今的表现,离不开长期的积累。

大模型(Large Model),顾名思义是指具有数百万或数十亿个参数的深度神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。相比之下,小模型(Small Model)是指具有较少参数的深度神经网络模型。

天工采用了双千亿模型——千亿预训练基座模型和千亿RLHF排序模型,这使其具备了更高级的自主学习和智能涌现能力。

模型大,训练一次所需的算力也就更大,这也是目前业界公认的发展大模型的挑战之一。而算力是天工最不用担心的事情,其背后有国内最大的GPU集群之一,能够进行充分训练。
在此基础上,天工采用了蒙特卡洛搜索树算法进行优化,这进一步提高了解码过程中的准确性和安全性,这是天工在复杂任务和场景中能够快速且准确响应指令,让用户感受到其足够“聪明”、“通人性”的关键原因之一。
数据作为AI时代的燃料,同样是大模型过程中必不可少的要素。为了给天工最优质的燃料,天工团队投入大量资源从数十万亿的数据中清洗、筛选出了3万亿单词数据用于训练大模型。这使得天工天然“更懂中文”。

天工也很懂得人多力量大的道理,昆仑万维在2022年发布AIGC全系列算法模型的同时,就开源了百亿级参数模型,积累了广泛的开发者好评与社区共创。因此,天工能够得到开源社区上百位AI科学家助力,加速提升。

要集聚如此优质的资源,临时抱佛脚肯定是做不到的。今日天工之成绩,离不开昆仑万维过去数年的扎实投入。

做AI,昆仑万维一直很认真。

昆仑万维旗下的StarMaker是海外市场最大的音乐社交平台,全球活跃用户数超过6000万。基于对相关业务场景的洞察,昆仑万维从2020年就开始布局AI音乐领域,在2022年1月启动SkyMusic音乐实验室,2022年4月已达到人工智能领域最优效果。

也是在这一年,昆仑万维开始从音乐AI往多模态AI拓展。而只有自研大模型,才能建立AIGC的核心壁垒、掌握主动权。此时其合作方奇点智源也越发强烈地意识到千亿级大模型是AGI(通用人工智能)的一个突破口,开始从百亿级模型向千亿级模式冲刺。双方一拍即合。

2022年,昆仑万维和奇点智源就百亿级大语言模型、图像AIGC、编程AIGC等技术领域达成全面技术战略合作,在2022年底宣布全系列模型开源。

“天工”这个千亿级大模型的诞生,算是长期技术投入和积累的厚积薄发。

转动变革的飞轮

昆仑万维之所以对AIGC有如此敏感的嗅觉,与其业务版图密不可分。
2008年,昆仑万维以页游研发和全球游戏发行起家,次年进军海外,是最早出海的一批游戏公司。经过十数年的发展,如今,昆仑万维已经是一家业务遍布全球5大洲、70多个国家和地区,全球平均月活跃用户近4亿,海外收入占比达75%的全球化企业。且业务版图也从最早的游戏,拓展至信息分发、元宇宙、社交娱乐、移动游戏、休闲娱乐和投资五大板块。

出海、全球化、泛娱乐是定义昆仑万维的三个关键词。

娱乐是一个极度依赖创意驱动和内容生产的产业,创意既能带来机遇,也意味着高昂的成本和极高的试错风险,如果能降低创意涌现的随机性,提高创意竞争力,降低内容生成成本,也能实实在在的巩固企业核心竞争力。

理解了这个逻辑,就不难理解为什么昆仑万维对于AIGC会保持如此敏感度:AIGC赋能内容生产能力,提高工作效率和质量的效果显而易见,同时企业运营成本也能得到有效控制。

作为昆仑万维CEO,同时也是从1994年开始参与和倡导开源运动、中文Linux的奠基人,方汉对技术的敏锐嗅觉也让他在2019年底看到GPT3的发布后,便判定改革终将来临。公司高层对未来趋势的判断叠加业务发展的现实需求,构成了昆仑万维长期、坚定投入AI的坚实底气。

AIGC已经在昆仑万维的实际业务场景中展露锋芒:公开信息显示,过去,昆仑万维游戏板块完成一期游戏配乐项目需要4-6个月的时间,现在通过AIGC,同样的项目只需两周交付,资金成本大幅降低。

实际落地后,天工的能力还将在具体场景下实现更快的技术迭代。更加先进的多模态大模型将能有效赋能昆仑万维的实体业务,提升企业竞争力。

这在昆仑万维的发展历史中已经被验证。

2017年,StarMaker选择K歌作为切入音频社交的入口,但在中东、非洲、东南亚市场,买了版权却不能获得伴奏带,StarMaker只能自己做。传统制作方式是人工做声音消除,成本高昂。为此,昆仑万维专门组建了研发AI作曲的实验室StarX MusicX Lab,带着近10位博士研发了将近三年,将AI人声消除技术做到世界头部水准。StarMaker每进入一个新市场,完成版权交易后便能瞬间生成伴奏,实现快速扩张。

当更加先进的生产工具被纳入昆仑万维的业务流程中后,其全球化复杂的运营体系,以及创意驱动的多业务布局,都将得到AI更稳更强的护航。

天工的意义远不止于提升自家产品体验,还在于为昆仑万维打开了全新的可能性。

不是所有人都有能力去做大模型,但对先进生产工具的需求是普遍的,因此天工作为生产工具向市场开放,是有极强的现实基础的。

据Gartner预测,至2023年将有20%的内容被生成式AI所创建;至2025年生成式AI产生的数据将占所有数据的10%(目前不到1%)。红杉则在去年的一份报告中预测,AIGC将产生数万亿美元经济价值。国海证券认为,至2025年,国内AIGC应用规模有望突破2000亿,国内传媒领域应用空间超1000亿。

显然,无论是作为效率工具,还是由之衍生的应用市场,AIGC都能提供足够大的空间。也就是说,天工的想象空间非常大,这将成为未来观察昆仑万维价值的重要线索。

当前,大模型距离全面普及还差一个iPhone时刻。而离开实际应用场景,大模型侈谈杀手级应用,更遑论iPhone时刻。如今,天工不仅在昆仑万维的业务流中输入更多现实反馈,还会在更多合作伙伴的应用场景中锻造能力。

当更先进的技术结合最丰富的应用场景,诞生杀手级应用的可能性将会大大提高。这是跨代际的机遇,孵化出天工的昆仑万维必然能从中分享红利,产业的发展也将在其刺激下,迸发更多的可能。