UFO中文网

 找回密码
 注册会员
查看: 234|回复: 5
收起左侧

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...

[复制链接]
online_member 发表于 2023-2-23 18:01:54 | 显示全部楼层 |阅读模式
2月20日从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台(https://moss.fastnlp.top/),邀公众参与内测。当晚,社交媒体上出现截图,显示该平台“服务器流量过载,请明天上午重试”。随后,该平台官网发布一则说明,解释称“计算资源不足以支持如此大的访问量”,“给大家造成非常不好的体验和第一印象”,并致以真诚的歉意。

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...393 / 作者:温润而哲 / 帖子ID:113019
复旦MOSS团队回应访问量过大,并解释了MOSS名字的由来。
根据复旦大学计算机科学技术学院官网的介绍,邱锡鹏教授于复旦大学获得理学学士和博士学位。研究方向为自然语言处理、深度学习,发表CCF-A/B类论文70余篇。主持开发了开源自然语言处理工具FudanNLP、FastNLP,获得了学术界和产业界的广泛使用。指导学生多次获得中国人工智能学会优博、中国中文信息学会优博、微软学者、百度奖学金、上海市计算机学会优博等。
邱锡鹏的研究方向是,围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用,包括:自然语言表示学习、预训练模型、信息抽取、中文NLP、开源NLP系统、可信NLP技术、对话系统等。
邱锡鹏的知乎账号显示,他于2月21日凌晨关注了问题“复旦团队发布国内首个类ChatGPT模型MOSS,将为国内大语言模型的探索和应用带来哪些影响?”,但未做任何回复。
上观新闻报道称,MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供了重要经验,将助力大语言模型的进一步探索和应用。
邱锡鹏表示:“尽管MOSS还有很大改善空间,但它的问世证明了在开发类ChatGPT产品的路上,国内科研团队有能力克服技术上的重要挑战。”MOSS研发项目得到了上海人工智能实验室的有力支持。后期,这项工作将通过开源方式和业界社区分享。
online_member 发表于 2023-2-23 18:02:46 | 显示全部楼层
有幸参与内测体验了一下,确实与ChatGPT有很大差距,但是还是很有意义的,说几个观点吧。
1) ChatGPT背后的原理和资源一直没有open,大家都在摸索中跟进,共享一些小成果和信息都是值得肯定的;
2)ChatGPT吸引了大量的使用用户,其积累的用户query/prompt/instruction数据量级将永远成为其优势,OpenAI未必会Open这些数据;
3)这次上架MOSS,虽然效果不如ChatGPT,但起码能在此时有热度的时候吸引一些使用者,积累一些数据,如果将来开源数据,这可给国内搞ChatGPT解决大问题了,这价值不值得肯定吗?等到ChatGPT垄断市场以后,再追赶就难了,数据量永远也追不过。
4)大家都是从高校毕业出来的,高校里的计算资源和工程能力大家都清楚,包容一些不足,多看一些正向受益吧。平心而论,刚范围这个系统,是能看到背后很多付出的。
online_member 发表于 2023-2-23 18:03:00 | 显示全部楼层
这里面困难确实很多……
很多高赞答案已经提到了,最大的困难就是钱。训练这样的大模型需要非常多的钱,据说openAI花了几十亿美金在ChatGPT上。即使考虑到美国人工比较昂贵,有一些前期试验性的损耗,对于高校来说这仍然是一笔不可承受的投入。
那么,这么一大笔钱都花在哪里了呢?
首先一个是硬件投入,也就是机器。首先一个是GPU集群,如此大规模的模型,需要的GPU数量也是非常可观的。根据网络信息,GPT-3模型训练一次的成本就高达140万美元,折合近千万RMB。
其次是数据投入,再智能的模型也需要高质量的训练数据来承载。目前训练数据只能依靠人工,openAI在第三世界国家花了大笔资金雇佣了大量人工标注训练数据。这部分数据量有多大呢?我查到了一张表,下图中的单位是GB

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...621 / 作者:平凡7 / 帖子ID:113019
ChatGPT的数据来源主要有六类:分别是:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。加在一起一共有10550GB,折合约10TB。即使不是全部都依赖人工标注,这里的投入也是非常可观的。
最后是工程,即使上面这些问题都解决了,模型训练顺利,并不是就万事大吉了。有了可靠的模型到上线给普通用户使用,这中间也有巨大的鸿沟。
首先是集群搭建,想要上线需要先搭建服务器。由于ChatGPT本身模型的体积就非常庞大,并且考虑到在线服务的庞大流量,同样需要可观的GPU集群支持。据说ChatGPT集群使用了三万张英伟达A100显卡,投入了8亿美元……
GPU只是为了应付模型开销的,除此之外还需要CPU集群响应、分发、处理用户请求。
流量庞大了,就涉及到了非法请求。比如爬虫、恶意机器人等,所以还需要一定的风控系统,对这些恶意请求进行识别和拦截。其次需要保证输出的结果不会引发法律或舆论风险,因此需要过滤那些敏感信息。不太清楚这部分是直接ChatGPT自带的,还是另外有其他模型来完成的。我估计可能是另外的风控模型来识别的。
虽然使用ChatGPT的整个过程逻辑很简单,但考虑到背后庞大的资源消耗,还会涉及到集群以及模型优化等方面。
术业有专攻,这里面涉及到后端、分布式、模型、集群部署等等,一个人再强也不至于这些问题都能搞定。综合下来,这需要一个庞大的团队进行开发和维护。只靠高校实验室里的几个师兄师弟是几乎不可能胜任的……
所以如果复旦MOSS团队真想把它做好的话,未来肯定免不了要和企业进行深度合作。
online_member 发表于 2023-2-23 18:03:34 | 显示全部楼层
让大学来推动大规模深度学习模型,并且要落地我觉得可能不太现实。这个背后的资本需求是极其大的。我之前在我的另外一篇分析当中提到了ChatGPT本身的计算体量本身就会对于任何机构运营类似大模型的壁垒,同时也讲了一下ChatGPT本身功能性和社会性的缺陷和未来的挑战,我觉得和这个题目很契合,便拿到这里来给大家参考。我的原始回答在这里
如何评价 OpenAI 的超级对话模型 ChatGPT ?ChatGPT的庞大计算需求

我们可以将ChatGPT的计算需求和google做一个比较就知道一个大学要支撑MOSS这样的产品有多难了。
首先,ChatGPT的每一次回答的代价和Google每一次搜索的模型inference的代价的区别有多大。既然ChatGPT是在Azure上面完成的训练和落地,那我们就用Azure的价格来计算一下ChatGPT的inference价格。ChatGPT本身需要1750亿个参数,需要一个8 x 80GB A-100 GPU Cluster来完成正常的1秒内的inference。那从我所知,如果签长期合约一小时的使用价格大概在12美金左右(这个价格和自己基建的价格差不了太多了,考虑Azure的营业利润率为40%,这种长期合约的价格意味着估计成本价在8-9美元)。因为不可能在每一次完成inference后就关掉cluster,所以我们就需要这台cluster一直开着,那样一年的开销就在10万美金左右。因为一台cluster不可能完成上百万人的服务需求,那我们大概估算一下一台cluster能够服务多少客户。在不考虑峰值并且所有人都能够被load-balancer完美分配的情况下,一台cluster可以服务 1440 个一分钟的Daily Active User。假设这一分钟内可以完成5次问答,那每次问答的代价是100000 / 1440 / 365 / 5 = 0.04美元。再激进一些,我们可以想象在问答间隙,GPU可以为其他客户服务,那就是5次问答本身需要5秒,考虑到数据的I/O,那一个cluster可能可以再服务2-4倍的用户,也就是每次回答0.04 / (2-4倍) = 差不多0.01-0.02美元,在最最理想的情况下。目前google每秒要收到99000个搜索请求(https://www.oberlo.com/blog/google-search-statistics#:~:text=But%20how%20many%20is%20that,Internet%20Live%20Stats%2C%202022),然后它2023年的总的除去人工的operating expense是1260亿美元(见财报),我们假设其中有一半来自于google 搜索的服务器,那每次搜索的成本就是126000000000 / 2 / 365 / 24 / 60 / 60 / 99000 = 0.02美元。
我们再来看看营收的情况,目前可知的是Google 2022年search所带来的revenue是1620亿美金(https://fourweekmba.com/google-revenue-breakdown/),我们可以得到,每次搜索的revenue是162000000000 / 2 / 365 / 24 / 60 / 60 / 99000 = 0.026美元。每天google搜索的广告数量大概是55亿个impression (https://www.business2community.com/online-marketing/how-many-ads-does-google-serve-in-a-day-0322253),那算到每次搜索大概就是5500000000 / 24 / 60 / 60 / 99000 = 0.6次广告。每个广告也就是说价值0.026 / 0.6 = 0.04美元。那我们现在来考虑一下ChatGPT,如果说按照上文计算的成本,也就是说至少每两到四个回答中有一个会是广告,才能够基本负担它的模型inference的代价。我们更别说模型训练的代价了,估算成本,光是训练一次GPT-3级别的模型就需要460万美金,而且还需要不停更新才能跟上新的网络数据(https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/)。
也就是说,如果不是一个研究项目,OpenAI有钱可烧,作为商业项目,它的运营成本可能会超过Google搜索,这会让大多数公司或者机构望而却步。而作为大学,这个项目就更难以维持了。
ChatGPT/MOSS所缺乏的技术能力

我认为在这个方面,最缺乏的能力还是长期reasoning和planning的能力。它无法帮助人类完成长期的有目的性的交流,比如它能不能手把手通过多步引导教会人类一个技能,目前来说,它还只能一下子把所有步骤一股脑发给人类。这和RLHF本身的限制有关。关于ChatGPT的具体能力和技术细节,可以参考我在之前文章中的内容。
如何评价 OpenAI 的超级对话模型 ChatGPT ?RLHF帮助改善了几个原来GPT-3到3.5没有解决的问题,人类可以告诉ChatGPT有些东西是错的,所以ChatGPT可以对一些内容进行筛选。它的行文也更“人类”,而不再那么机械化。不过也就仅此而已。将整个ChatGPT的架构来看,它其实就是一个优秀的工程产品,并没有科学技术的突破。不仅如此,很多人认为因为用了RL,ChatGPT有了planning或者reasoning的能力,实则不然。从严格意义上来说,这里的RLHF其实可以被看作是一个large action space的bandit learning model,并没有任何planning或者reasoning的行为。Reward是给定在基于上面聊天记录后的最后agent给到的回答的,没有被跨越回答累加,也就是说,agent的optimization target就只有单轮回复的最优化。即便人在给定reward的时候考虑到了回答对于上文的呼应,也只能提升agent对于contextual info的理解,不能提升planning的能力。如果需要提升planning的能力,需要对于每一轮的policy针对未来的reward进行调整,然而人类的回答对于调整后的policy是会有不同的,所以会出现counterfactual的情况,只能根据最后一轮的回答给到的reward来调整。因此RLHF在这个场景下很难做到planning能力。于此同时,ChatGPT还是一个严格意义上的supervised learning的产物,所以它的行为其实就是模仿,最强算力的模仿,只是Imitation learning或者对于人类的behavior cloning。
最后再提出一个问题,不论是搜索,个人助手还是其他的应用场景,个性化都是必不可少的能力,在ChatGPT上,如何完成个性化,并且将用户信息加入整个交流过程,还是个未被探讨的话题。
大语言模型带来的社会和伦理问题

ChatGPT和MOSS有一样的问题,那就是回答对准确性。因为大语言模型的目的是生成模仿人类的语言和回答,却没有办法保证正确性,这个问题短时间内不太可能解决。可能会有人觉得只有问问题的人自己能够分辨就行,但是这些回答对于整个网络将是毁灭性的。想象如果有人专门将这些回答发到网络上,混淆视听,而这些回答又如此的真实,那阅读者如何分辨真假呢。如果搜索也是以chatgpt类型的服务为切入点,那整个互联网环境将不再有真假的区别,谎言重复千遍将变成真理。以此为鉴,Stack Overflow已经ban了ChatGPT在他们网站上的使用。这样的滥用长期可能对于人类的知识体系都是毁灭性的,因为数字化,更多的材料已经完全基于数字媒介,而如果数字媒介没有可信度,那崩塌的发生将非常快。
https://www.theverge.com/2022/12/5/23493932/chatgpt-ai-generated-answers-temporarily-banned-stack-overflow-llms-dangers除此以外,很多研究者还提出了对于抄袭或者作弊的可能性。这些确实存在,所谓的ChatGPT的探测器其实在RLHF的框架下是没有用的,因为只要将这些探测器的结果作为反向的reward输入系统,这样新调整出来的ChatGPT将可以完美混过探测器,Literally,完美避过。因为探测器也是一个classifier,也就是一个function,ChatGPT完全可以通过tuning去避开整个decision boundary从而逃过监管。
更可怕的是,ChatGPT其实对于敏感语言或者恶意语言的规避是没有办法真的屏蔽的。因为ChatGPT是一个Neural Network,它不是僵硬的规则,它对于世界的认知是连续性的,没有非黑即白的观念。对于任何的Neural Network,即便是再明辨的黑白,在他们的预测中也就是0.001和0.999的区别,做不到完全的0和1。
类似的伦理和社会问题还有很多,值得大家深思。
最后,我非常有信心国内短期内跟上脚步能够做出这样的大模型,因为在有算力支撑的情况下,这些模型的技术细节并没有那么复杂。很期待国内版本的模型是否能在中文交流上更胜一筹。
online_member 发表于 2023-2-23 18:04:18 | 显示全部楼层
我昨晚登的时候可是连提示都没有,只有一个logo。

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...697 / 作者:漠河龙哥 / 帖子ID:113019
今天再等,虽然还是不能用,但总算有个说明了,而且提供了提交内测申请的渠道。

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...736 / 作者:漠河龙哥 / 帖子ID:113019
尝试解读一下这个说明:

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...984 / 作者:漠河龙哥 / 帖子ID:113019
1. 大家理解错了,MOSS 不是 ChatGPT 同等产品,是以相对较小规模对其技术路线的验证,是一个技术探索。

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...11 / 作者:漠河龙哥 / 帖子ID:113019
2. 这次本意是“内测”,并不是以全网访问为目标而设计的。而且这个项目是做研究不是做工程,这方面也没经验。

复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有 ...835 / 作者:漠河龙哥 / 帖子ID:113019
3. 以 MOSS 作为模型命名是很常见的做法,这并不是一个商业产品名称。
以上几点,我个人觉得没毛病,完全可以理解。
那为什么现在会出现这么个问题,而且很多人冷嘲热讽?
原因在于“预期”。也就是:报道上出了偏差。
如果你明确这是一个高校实验室的研究课题,目标是验证技术路线的可行性,然后现在有了阶段性成果,正打算进行小范围的内测。那么昨晚出现的这些问题都不叫问题,都只能算是“计划的一部分”。在大学里做过项目的同学应该都有体会,实验室研究课题,有些距离可实用还是有很大差距的,毕竟做研究和做产品,目标本来就不同。
但如果被人把话传出去了,说这是首个比肩 ChatGPT 的产品,那前来体验用户显然是抱着中国版 ChatGPT 的预期来的。结果发现连网站都进不去,那广大用户肯定是要给差评的。
所以这次究竟是团队内部没有经验没有做好宣传上的把控,还是媒体断章取义搞个大新闻,外人就不得而知了。但从 AI 技术的发展角度来看,这种有可能造成误解的“上热搜”并不是一件好事,有可能造成“捧杀”。外部过度的关注和过高的预期反而会给团队内部成员带来不必要的影响。
但反过来,要求相关领域完全不做宣传,闷头搞研究,也并不现实。因为大众的关注也会带来资金、人才、资源的集聚,对行业本身的发展是有好处的。搞宣传和做研究并不矛盾,比如大家所熟知的 DeepMind、BostonDynamics,也都是搞大众宣传的好手。曾经有位自带流量的连续失败创业者(名字我就不提了)在一次采访中表达了大致意思:很多人说我xx项目失败是因为我不注重研发而是整天在媒体上哗众取宠,但实际上以我们当时在行业内的能力和地位,如果我不弄出那些声音来,甚至连参与的机会都没有,现在至少有投资机构愿意出钱让我们试一试。
所以就是这样,不仅是复旦MOSS团队,我敢打赌后面一定还会不断有这个行业的团队出现,其中也必然会有一些被“打脸”的情况,而且这很可能会是一个持续的过程。所以如何在高调宣传和低调做事间找到一个平衡,也是技术之外,相关团队不得不考虑的问题。(为什么我会想到《黑神话·悟空》)
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

UFO中文网

GMT+8, 2024-11-23 00:42

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表