本帖最后由 车车飞飞 于 2025-8-22 10:57 编辑
DeepSeek发布了对旧模型的更新版本,称其在关键基准测试中超越了标志性的R1,使这家中国初创企业在业界等待下一代旗舰产品时继续保持竞争力。
公司周四在微信发文表示,V3.1能更快回答问题,并标志着该公司迈向打造AI智能体的第一步。
该平台已在Hugging Face上线,并针对新一代国产AI芯片进行了定制优化。
DeepSeek今年1月凭借高性能、低成本的R1震动硅谷,之后一直站在中国AI研发浪潮前沿。
周四,公司还公布了对V3版本的新收费计划,上调部分价格、取消夜间优惠,但降低了部分场景的费用,新方案9月6日生效。
DeepSeek的模型挑战了美国的OpenAI等巨头,显示中国企业即便没有最尖端芯片也能在AI领域取得突破。
业界正等待R1继任者的推出,该机型原定今年早些时候发布。
DeepSeek在微信发文称,DeepSeek-V3.1的UE8M0 FP8精度格式已针对“即将发布的新一代国产芯片”进行优化,但公司未透露具体的芯片型号或制造商。
FP8,即8位浮点数,是一种数据处理格式,可让AI模型更高效运行,用更少的内存并比传统方法更快。
公司在微信中表示,DeepSeek-V3.1采用混合推理架构,使模型能够在推理模式与非推理模式间切换。
用户可通过其官方应用和网页平台上的“深度思考”按钮在两种模式间切换,这些平台已运行V3.1版本。
当地媒体称推迟原因在于创始人梁文峰坚持“要把它做好”,尽管他仍在经营盈利颇丰的高毅资产管理公司。也有人猜测是训练或研发中出现问题。
与此同时,阿里巴巴集团和腾讯控股等对手也在加速AI模型迭代。尤其是阿里巴巴的通义千问(Qwen)系列,已收获广泛人气。
|
|