博牛社区
https://bbs.boniu123.cc/
“东方神秘力量”:爆火国产AI大模型背后的年轻人
2025-01-24
Anyalee
恢复备份
导出
导入
更新
清空
关闭
More
保存
重做
撤销
预览
开始
框架
模块
您可以通过导出进行模板备份
我知道了
添加框架
添加模块
100%框架
1:1
1:2
2:1
1:3
3:1
1:1:1
tab框架
关闭
当前为
简洁模式
,您可以更新模块,修改模块属性和数据,要使用完整的拖拽功能,
请点击进入高级模式
广告合作
招聘广告
社区广告
博牛APP
博牛QA
官方人员
官网验证
首页
产业中心
企业入驻
我是提供商
我有需求
招聘求职
求职招聘
招聘专区
求职专区
最新动态
Web3
东南亚新闻
国际新闻
产业新闻
全球展会
讨论广场
综合讨论
黑点曝光
畅游世界
美食之旅
生活服务
房屋租售
商品交易
外卖点餐
声色犬马
私密聊吧
情欲图鉴
绯梦书阁
站务公告
公告专区
毛遂自荐
建议投诉
登录/
注册
博牛社区
›
讨论广场
›
综合讨论
电梯直达
»
返回列表
1
2
3
4
5
6
7
8
9
10
... 11
/ 11 页
下一页
Anyalee
版主
当前积分:177703
帖子
25175
新博币
6853
提现
提现
0
元
TA的勋章:
勋章中心
展开更多
收起
发表于 2025-1-24 14:20:32
15.4万
101
|
显示全部楼层
|
倒序浏览
楼主
2024年岁末,DeepSeek-V3大模型发布,迅速成为全球人工智能(AI)领域的焦点,刷屏科技圈,很多人化身“自来水”,在各大社交媒体、科技论坛上发帖讨论,不吝溢美之词。
在全球范围内的行业基准测试中,DeepSeek-V3达到与Llama3(开源大模型标杆,由扎克伯格的Meta公司开发)、GPT-4o(OpenAI大模型)相当的水平,闯入了多个AI大模型排行榜单前列。聊天机器人竞技场(ChatbotArena)最新数据显示,DeepSeek-V3位列开源模型榜第一,在全模型榜单里排名第七,也是中国模型中排名最高的。更令人诧异的是,DeepSeek-V3模型训练所消耗的算力,只有Llama的1/11。
DeepSeek-V3轰动AI圈,背后的中国公司深度求索(DeepSeek)也“浮出水面”。硅谷同行称其为“东方神秘力量”,对DeepSeek团队表现出浓厚的兴趣。而在国内,“雷军千万年薪挖角DeepSeek研究员罗福莉”的话题也上了社交平台热搜。
不管是AI圈,还是“吃瓜群众”,都在好奇,DeepSeek-V3大模型的背后,到底是一支什么样的团队?
走出校园不久的年轻人
2024年12月底,有媒体报道,雷军以千万年薪招揽一名“天才AI少女”来领导小米的AI大模型团队。这位95后“少女”名叫罗福莉,过去两年供职于DeepSeek团队,曾参与DeepSeek大模型的关键研发。
罗福莉在北京大学读计算语言学硕士期间,曾因在ACL(国际计算语言学协会)学术会议上发表多篇论文而受到关注。毕业后,她进入阿里巴巴达摩院,从事预训练语言模型相关的
工作
。2022年加入深度求索母公司幻方量化,之后成为DeepSeek大模型项目成员。
DeepSeek-v3的出现,让很多人以为,DeepSeek团队必然有“大牛”坐镇。但罗福莉走红却让外界发现,真正的“大牛”是那些像她一样的年轻人。
▲罗福莉 图/罗福莉个人公众号
2023年5月,DeepSeek-V2发布,相比于国内外主流大模型,大幅减少了计算量和推理显存,一问世就备受关注。做出这一突破性创新的,是年轻的高华佐和曾旺丁等人。
两人都刚从学校出来没几年。高华佐来自广东,2012年在华南师范大学附属中学就读时,曾获第29届全国中学生物理竞赛一等奖,并于次年保送至北京大学物理学院学习。曾旺丁来自湖南省新化县,2017年至2023年就读于北京邮电大学人工智能学院,硕士期间主要学习人工智能方向,导师为张洪刚,2018年曾获全国大学生数学竞赛(非数学类)二等奖。
DeepSeek大模型的另一大突破,是通过一种名为GRPO的算法,创新训练方法,大大降低了成本。其中的主角,依然是这些看似缺少经验的年轻人。
核心成员之一邵智宏此前是清华大学交互式人工智能(CoAI)课题组博士生,主要研究自然语言处理、深度学习,对构建稳健且可扩展的AI系统有着独特见解。他曾服务于微软研究院,加入DeepSeek团队之后,参与了多个重要项目的研发,包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。
GRPO算法创新的另一重要贡献者是朱琪豪。这位北京大学计算机学院2024届的博士毕业生,专注于深度代码学习研究。在校期间,他展现了惊人的学术能力,发表CCF(中国计算机学会)-A类论文16篇,获得了软件工程领域顶级会议(ESEC/FSE)杰出论文奖。他的博士论文《语言定义感知的深度代码学习技术及应用》入选了2024CCF软件工程专业委员会博士学位论文激励计划。他在DeepSeek团队最重要的工作,正是基于自己的博士论文,主导开发DeepSeek大模型的一个关键项目。
他的同学代达劢则在更早的时候加入这个团队,参与了DeepSeek大模型从V1到V3每一代的研发,已经是元老级研发人员,也在学生时代获得多项论文奖。
▲朱琪豪 图/北京大学计算机学院公众号
▲代达劢 图/北京大学计算机学院公众号
负责DeepSeek大模型训练及推理基础架构的,是同样刚毕业的工程师赵成钢。加入DeepSeek之前,他曾在英伟达公司实习。赵成钢在学生时代就取得过令人艳羡的成绩。在河北衡水中学就读时,他是信息学竞赛班成员,2016年获得全国青少年信息学奥林匹克竞赛银牌。在清华大学读大二时,他成为学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。
DeepSeek团队规模并不大,不到140人,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。
吴俣是DeepSeek后训练团队的负责人,在进入深度求索之前,只有4年工作经验。他曾在微软亚洲研究院工作,参与了小冰(AI聊天机器人)和必应百科项目。他是北京航空航天大学计算机学院2019届博士。
“我们的核心技术岗位,基本以应届和毕业一两年的人为主。”深度求索创始人梁文锋此前向媒体表示,做一件长期的事,经验其实没那么重要,相比之下基础能力、创造性和热爱等更重要。因此,在组建DeepSeek团队时,他招人的原则是“看能力,而不是看经验”。他认为,或许目前世界排名前50的顶尖AI人才还不在中国,“但我们能自己打造这样的人。”
而这些一边搞研发一边写论文的年轻人,也一次又一次带给他惊喜。
便宜的大模型
DeepSeek大模型发布之后,便如同一头年轻的野兽,冲入公众视野,搅动整个AI圈。
2024年5月,Deepseek-V2推出后,不仅一鸣惊人,还掀起了一场AI大模型价格战。这款开源模型的推理成本仅为每百万Token(词元,语言模型中用数字来表示单词的最小语义单位,一个汉字约等于两个词元)1元人民币,只有Llama3的1/7,GPT-4 Turbo(OpenAI最新的语言模型)的1/70。
面对如此巨大的成本差,国内主流大模型不得不“忍痛”降价,包括腾讯、百度、阿里巴巴、字节跳动等公司相继更新了价格。仅仅半年之后,Deepseek-V3模型发布,输入价格降至0.5元/百万Token,又推动了新一轮的国产大模型降价潮。2024年12月,字节跳动下调旗下豆包视觉理解模型输入价格,相比行业平均水平降低85%。
DeepSeek因此有“价格屠夫”之称,也有人称之为“AI界的拼多多”,甚至DeepSeek聊天机器人也用这一称呼描述自己。
然而,与一些厂商依靠“烧钱”补贴维持低价不同,DeepSeek大模型虽然更便宜,但依然有利润。“我们只是按照自己的步调来做事,然后核算成本定价。”梁文锋称,DeepSeek不小心成了一条“鲶鱼”。
Deepseek大模型的“便宜”源于技术的突破。深度求索公布的信息显示,DeepSeek-V3模型全程训练只用了不到280万个GPU小时(图形处理器使用时间),而Meta公司的Llama3 405B模型训练时长是3080万GPU小时。
训练效率的大幅提升,来自于DeepSeek团队在模型架构和训练方法上的创新。
2024年,高华佐和曾旺丁等人在Transformer架构(一种采用“注意力机制”的深度学习模型,2017年由谷歌推出后,成为各类AI大模型的首选架构)的基础上,用新的MLA(多头潜在注意力机制)替代了传统的多头注意力机制,压缩数据,把推理显存降至此前常用MHA架构的5%-13%;还借助自研的DeepSeekMoE结构,在保持性能的前提下,极大减少了计算量。这种架构层面的创新,在国内大模型公司中极为罕见。
与此同时,DeepSeek利用算法,把数据进行总结和分类,经过选择性处理之后,输送给大模型,提高了训练效率。而此前如OpenAI的训练方法则是“大水漫灌式”,拿海量数据喂,需消耗更多资源。这种训练方法的创新,也降低了DeepSeek的成本。
深度求索官方信息显示,DeepSeek-V3大模型训练仅耗时不到两个月,花费了557.6万美元和2048块GPU(图形处理器)。而斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI的GPT-4模型训练成本约为7800万美元,GPT-4o则为1亿美元;谷歌GeminiUltra的计算成本为1.91亿美元。Meta于2024年7月发布的开源模型Llama3.1-405B,则消耗了1.6万块GPU用于训练。
DeepSeek-V3的出现,实现了高性能与低成本的平衡,给大模型发展提供了新的可能性。“未来或许不需要超大规模的GPU集群了。”OpenAI创始成员AndrejKarpathy表示。
也有学术专家认为不宜过高评价DeepSeek-V3的创新,因为其成功更多得益于整合前人已有的技术,缺乏底层原理的创新。
站在“巨人”的肩膀上,DeepSeek团队也乐意将自己的创新共享给更多人。DeepSeek-V3上线时,深度求索也同步开放源代码,并发布了53页论文,将模型的关键技术和训练细节全部分享给外界。
在新技术浪潮中成为创新贡献者
2023年5月,梁文锋成立了新公司“深度求索”。他对外宣布,要做“真正人类级别的人工智能”。在此之前,他是私募基金“幻方量化”的创始人。
那时候,网上已有传闻称,中国持有高性能GPU最多的机构不是人工智能公司,而是一家量化私募。据《财经》报道,2023年,中国拥有1万张以上GPU的企业不超过5家,只有幻方量化不是科技“大厂”。
这颠覆了很多人的想法。跟钱打交道的基金经理,为什么如此执着于人工智能?
1980年代,梁文锋出生于广东一座五线城市。他的父亲是一位小学老师,那个时候,常有家长跑到他家,表示“读书没用”,不想让孩子继续念书,因为觉得广东充满了赚钱的机会。但受父亲的影响,梁文锋对知识一直充满渴望。
在浙江大学攻读信息与电子工程学本科和硕士时,他对人工智能产生了浓厚的兴趣,笃信“人工智能一定会改变世界”。2008年毕业之后,他和朋友一起做量化投资,尝试通过数学模型,用计算机程序进行交易。
持续多年在量化投资领域的探索,让他对技术驱动型创新越发有了信心。2015年,他与校友徐进成立“幻方量化”。后者是浙江大学信号与信息处理博士,曾任职于华为技术有限公司上海研究所。他们买了不少GPU,打造研究室,开始尝试借助AI技术构建投资策略。这帮助幻方量化在4年时间里成长为一家管理资金规模过百亿的私募公司。
2019年,他们成立了AI公司,投资超过10亿元,先后研发了AI超级计算机“萤火一号”和“萤火二号”。其中,“萤火二号”搭载了约1万张英伟达A100显卡,算力超过72万台个人电脑。借助AI超级计算机,幻方量化管理的资产在2021年突破1000亿元。
2022年底,ChatGPT的横空出世让已经积累多年的梁文峰下定决心做通用人工智能。“我们建了一个名为深度求索的新公司,从语言大模型开始,后边也会有视觉等。”实际上,OpenAI公开论文和代码后,国内外出现了许多大模型公司。梁文峰认为,在未来20年,大厂和创业公司都有机会。
不过,直到第三代大模型发布,DeepSeek团队依然没有上线相应的应用,尚未全面考虑商业化,而且与多数国产大模型不同,他们选择了开源路线。
梁文峰向媒体透露,他和团队的目标并不是做一个应用,而是进行基础研究,只负责基础模型和前沿的创新。
在互联网时代,很多人都会有一种惯性思维,认为欧美科技圈擅长从0到1的技术创新,而中国人更习惯从1到N,在应用层面发力。“很多中国公司习惯follow(跟随)而不是创新。”梁文峰认为,过去30年,这些企业更强调赚钱,忽视了创新。
他相信中国AI不会“永远处于跟随的位置”,希望深度求索以创新贡献者的身份加入新的技术浪潮之中。“创新首先需要自信。”他说。
个人签名
摆烂的人生,已经支棱不起来了~
收藏
0
回复
Anyalee
版主
当前积分:177703
帖子
25175
新博币
6853
提现
提现
0
元
TA的勋章:
勋章中心
展开更多
收起
发表于 2025-1-24 14:21:01
沙发
创新首先需要自信
个人签名
摆烂的人生,已经支棱不起来了~
回复
点赞
反对
sznds
等待验证会员
等待验证会员,当前积分4355,距离下一等级还需-4355积分
如何获得积分?
帖子
54
新博币
0
提现
提现
0
元
发表于 2025-1-30 04:12:19
板凳
蛇年加油,我们都期待你大展宏图!
个人签名
回复
点赞
反对
kerr666
等待验证会员
等待验证会员,当前积分3825,距离下一等级还需-3825积分
如何获得积分?
帖子
2
新博币
0
提现
提现
0
元
发表于 2025-1-31 14:12:11
地板
蛇年真是难得给力的一年,祝大家万事顺意!
个人签名
回复
点赞
反对
pekinghot
等待验证会员
等待验证会员,当前积分4093,距离下一等级还需-4093积分
如何获得积分?
帖子
29
新博币
0
提现
提现
0
元
发表于 2025-1-31 14:12:20
5
#
真是被蛇年的祝福感动得痛哭流涕……
个人签名
回复
点赞
反对
温柔暴君
LV5 水面的小草
LV5 水面的小草,当前积分3781,距离下一等级还需219积分
如何获得积分?
帖子
23
新博币
0
提现
提现
0
元
发表于 2025-1-31 14:12:26
6
#
感恩蛇年的福气满满,感恩无私的祝福与分享!
个人签名
回复
点赞
反对
r99999
等待验证会员
等待验证会员,当前积分3254,距离下一等级还需-3254积分
如何获得积分?
帖子
1
新博币
0
提现
提现
0
元
发表于 2025-1-31 14:12:44
7
#
强烈支持蛇年好运连连,福气满满!
个人签名
回复
点赞
反对
fkjwj4923r2l
LV5 水面的小草
LV5 水面的小草,当前积分3529,距离下一等级还需471积分
如何获得积分?
帖子
20
新博币
0
提现
提现
0
元
发表于 2025-1-31 14:12:48
8
#
蛇年吉祥,心态平和,淡定如意……
个人签名
回复
点赞
反对
luyao999
等待验证会员
等待验证会员,当前积分3621,距离下一等级还需-3621积分
如何获得积分?
帖子
3
新博币
0
提现
提现
0
元
发表于 2025-1-31 14:12:57
9
#
蛇年真是难得给力的一年,祝大家万事顺意!
个人签名
回复
点赞
反对
huaixiaoya
等待验证会员
等待验证会员,当前积分3721,距离下一等级还需-3721积分
如何获得积分?
帖子
9
新博币
0
提现
提现
0
元
发表于 2025-1-31 14:13:03
10
#
蛇年真是难得给力的一年,祝大家万事顺意!
个人签名
回复
点赞
反对
返回列表
1
2
3
4
5
6
7
8
9
10
... 11
/ 11 页
下一页
浏览过的版块
10
新年快乐4
新年快乐3
新年快乐2
新年快乐1
妇女节1
愚人节1
清明节1
劳动节4
端午节4
儿童节4
七夕4
中秋节1
星座:水瓶
定价勋章
星座:双鱼
定价勋章
星座:白羊
定价勋章
星座:金牛
定价勋章
星座:双子
定价勋章
星座:巨蟹
定价勋章
星座:狮子
定价勋章
星座:处女
定价勋章
星座:天秤
定价勋章
星座:天蝎
定价勋章
星座:射手
定价勋章
星座:摩羯
定价勋章
酒醉蝴蝶
任务勋章:请前往任务中心申请
关闭
博牛社区 x 菠菜圈
/1
免费企业入驻
产品曝光难?免费入驻,轻松对接资源方! 限时开放!让你的产品轻松被接入 免费入驻,连接无限可能!
查看 »
快速回复
返回顶部
返回列表