|
发表于 2023-2-23 18:03:34
|
显示全部楼层
让大学来推动大规模深度学习模型,并且要落地我觉得可能不太现实。这个背后的资本需求是极其大的。我之前在我的另外一篇分析当中提到了ChatGPT本身的计算体量本身就会对于任何机构运营类似大模型的壁垒,同时也讲了一下ChatGPT本身功能性和社会性的缺陷和未来的挑战,我觉得和这个题目很契合,便拿到这里来给大家参考。我的原始回答在这里
如何评价 OpenAI 的超级对话模型 ChatGPT ?ChatGPT的庞大计算需求
我们可以将ChatGPT的计算需求和google做一个比较就知道一个大学要支撑MOSS这样的产品有多难了。
首先,ChatGPT的每一次回答的代价和Google每一次搜索的模型inference的代价的区别有多大。既然ChatGPT是在Azure上面完成的训练和落地,那我们就用Azure的价格来计算一下ChatGPT的inference价格。ChatGPT本身需要1750亿个参数,需要一个8 x 80GB A-100 GPU Cluster来完成正常的1秒内的inference。那从我所知,如果签长期合约一小时的使用价格大概在12美金左右(这个价格和自己基建的价格差不了太多了,考虑Azure的营业利润率为40%,这种长期合约的价格意味着估计成本价在8-9美元)。因为不可能在每一次完成inference后就关掉cluster,所以我们就需要这台cluster一直开着,那样一年的开销就在10万美金左右。因为一台cluster不可能完成上百万人的服务需求,那我们大概估算一下一台cluster能够服务多少客户。在不考虑峰值并且所有人都能够被load-balancer完美分配的情况下,一台cluster可以服务 1440 个一分钟的Daily Active User。假设这一分钟内可以完成5次问答,那每次问答的代价是100000 / 1440 / 365 / 5 = 0.04美元。再激进一些,我们可以想象在问答间隙,GPU可以为其他客户服务,那就是5次问答本身需要5秒,考虑到数据的I/O,那一个cluster可能可以再服务2-4倍的用户,也就是每次回答0.04 / (2-4倍) = 差不多0.01-0.02美元,在最最理想的情况下。目前google每秒要收到99000个搜索请求(https://www.oberlo.com/blog/google-search-statistics#:~:text=But%20how%20many%20is%20that,Internet%20Live%20Stats%2C%202022),然后它2023年的总的除去人工的operating expense是1260亿美元(见财报),我们假设其中有一半来自于google 搜索的服务器,那每次搜索的成本就是126000000000 / 2 / 365 / 24 / 60 / 60 / 99000 = 0.02美元。
我们再来看看营收的情况,目前可知的是Google 2022年search所带来的revenue是1620亿美金(https://fourweekmba.com/google-revenue-breakdown/),我们可以得到,每次搜索的revenue是162000000000 / 2 / 365 / 24 / 60 / 60 / 99000 = 0.026美元。每天google搜索的广告数量大概是55亿个impression (https://www.business2community.com/online-marketing/how-many-ads-does-google-serve-in-a-day-0322253),那算到每次搜索大概就是5500000000 / 24 / 60 / 60 / 99000 = 0.6次广告。每个广告也就是说价值0.026 / 0.6 = 0.04美元。那我们现在来考虑一下ChatGPT,如果说按照上文计算的成本,也就是说至少每两到四个回答中有一个会是广告,才能够基本负担它的模型inference的代价。我们更别说模型训练的代价了,估算成本,光是训练一次GPT-3级别的模型就需要460万美金,而且还需要不停更新才能跟上新的网络数据(https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/)。
也就是说,如果不是一个研究项目,OpenAI有钱可烧,作为商业项目,它的运营成本可能会超过Google搜索,这会让大多数公司或者机构望而却步。而作为大学,这个项目就更难以维持了。
ChatGPT/MOSS所缺乏的技术能力
我认为在这个方面,最缺乏的能力还是长期reasoning和planning的能力。它无法帮助人类完成长期的有目的性的交流,比如它能不能手把手通过多步引导教会人类一个技能,目前来说,它还只能一下子把所有步骤一股脑发给人类。这和RLHF本身的限制有关。关于ChatGPT的具体能力和技术细节,可以参考我在之前文章中的内容。
如何评价 OpenAI 的超级对话模型 ChatGPT ?RLHF帮助改善了几个原来GPT-3到3.5没有解决的问题,人类可以告诉ChatGPT有些东西是错的,所以ChatGPT可以对一些内容进行筛选。它的行文也更“人类”,而不再那么机械化。不过也就仅此而已。将整个ChatGPT的架构来看,它其实就是一个优秀的工程产品,并没有科学技术的突破。不仅如此,很多人认为因为用了RL,ChatGPT有了planning或者reasoning的能力,实则不然。从严格意义上来说,这里的RLHF其实可以被看作是一个large action space的bandit learning model,并没有任何planning或者reasoning的行为。Reward是给定在基于上面聊天记录后的最后agent给到的回答的,没有被跨越回答累加,也就是说,agent的optimization target就只有单轮回复的最优化。即便人在给定reward的时候考虑到了回答对于上文的呼应,也只能提升agent对于contextual info的理解,不能提升planning的能力。如果需要提升planning的能力,需要对于每一轮的policy针对未来的reward进行调整,然而人类的回答对于调整后的policy是会有不同的,所以会出现counterfactual的情况,只能根据最后一轮的回答给到的reward来调整。因此RLHF在这个场景下很难做到planning能力。于此同时,ChatGPT还是一个严格意义上的supervised learning的产物,所以它的行为其实就是模仿,最强算力的模仿,只是Imitation learning或者对于人类的behavior cloning。
最后再提出一个问题,不论是搜索,个人助手还是其他的应用场景,个性化都是必不可少的能力,在ChatGPT上,如何完成个性化,并且将用户信息加入整个交流过程,还是个未被探讨的话题。
大语言模型带来的社会和伦理问题
ChatGPT和MOSS有一样的问题,那就是回答对准确性。因为大语言模型的目的是生成模仿人类的语言和回答,却没有办法保证正确性,这个问题短时间内不太可能解决。可能会有人觉得只有问问题的人自己能够分辨就行,但是这些回答对于整个网络将是毁灭性的。想象如果有人专门将这些回答发到网络上,混淆视听,而这些回答又如此的真实,那阅读者如何分辨真假呢。如果搜索也是以chatgpt类型的服务为切入点,那整个互联网环境将不再有真假的区别,谎言重复千遍将变成真理。以此为鉴,Stack Overflow已经ban了ChatGPT在他们网站上的使用。这样的滥用长期可能对于人类的知识体系都是毁灭性的,因为数字化,更多的材料已经完全基于数字媒介,而如果数字媒介没有可信度,那崩塌的发生将非常快。
https://www.theverge.com/2022/12/5/23493932/chatgpt-ai-generated-answers-temporarily-banned-stack-overflow-llms-dangers除此以外,很多研究者还提出了对于抄袭或者作弊的可能性。这些确实存在,所谓的ChatGPT的探测器其实在RLHF的框架下是没有用的,因为只要将这些探测器的结果作为反向的reward输入系统,这样新调整出来的ChatGPT将可以完美混过探测器,Literally,完美避过。因为探测器也是一个classifier,也就是一个function,ChatGPT完全可以通过tuning去避开整个decision boundary从而逃过监管。
更可怕的是,ChatGPT其实对于敏感语言或者恶意语言的规避是没有办法真的屏蔽的。因为ChatGPT是一个Neural Network,它不是僵硬的规则,它对于世界的认知是连续性的,没有非黑即白的观念。对于任何的Neural Network,即便是再明辨的黑白,在他们的预测中也就是0.001和0.999的区别,做不到完全的0和1。
类似的伦理和社会问题还有很多,值得大家深思。
最后,我非常有信心国内短期内跟上脚步能够做出这样的大模型,因为在有算力支撑的情况下,这些模型的技术细节并没有那么复杂。很期待国内版本的模型是否能在中文交流上更胜一筹。 |
|