本帖最后由 车车飞飞 于 2025-8-15 20:22 编辑
中国人工智能公司DeepSeek因无法使用华为芯片对新模型进行训练,已推迟该模型的发布,这凸显了北京方面推动替代美国技术的努力所面临的局限性。
据三位知情人士透露,DeepSeek在1月发布R1模型后,被当局鼓励采用华为的Ascend处理器,而非使用英伟达的硬件。
知情人士透露,DeepSeek在使用 Ascend 芯片进行 R2 训练过程中遇到了持续的技术问题,迫使其转而使用 Nvidia 芯片进行训练,使用华为的芯片进行推理,
这些问题是该模型发布推迟至五月的主要原因,这导致其在与竞争对手的竞争中处于下风。
训练是指模型从大量数据集中学习,而推理则是指使用训练好的模型进行预测或生成响应的步骤,例如聊天机器人的查询。
DeepSeek的困难表明,中国芯片在关键任务上仍落后于美国同行,凸显了中国实现技术自主的挑战。
《金融时报》本周报道称,北京方面已要求中国科技公司解释采购英伟达H20芯片的理由,此举旨在鼓励和推广使用华为和 Cambricon 等国内厂商的替代产品。
行业人士指出,中国芯片在稳定性、芯片间连接速度及软件性能方面均逊于英伟达产品。
据两位知情人士透露,华为派出一支工程师团队前往DeepSeek办公室,协助该公司利用其AI芯片开发R2模型。然而,尽管有团队在现场提供支持,DeepSeek仍无法在Ascend芯片上成功完成训练运行。
知情人士表示,DeepSeek仍在与华为合作,以使该模型与Ascend芯片兼容进行推理。
创始人梁文峰在内部表示,他对R2的进展感到不满,并一直在推动投入更多时间来构建一个先进的模型,以维持公司在人工智能领域的领先地位。
R2的发布也因其更新模型所需的数据标注时间比预期更长而被推迟。
加州大学伯克利分校的人工智能研究员Ritwik Gupta表示: 模型是可以轻松替换的通用工具,许多开发者都在使用阿里巴巴的Qwen3,因为它功能强大且灵活。
Gupta指出,Qwen3采用了DeepSeek的核心概念,例如其训练算法使模型具备推理能力,但使其使用效率更高。
作为华为人工智能生态系统观察者的Gupta指出,该公司目前在使用Ascend进行训练时正面临“成长的阵痛”,但他预计这家中国科技巨头最终将适应这一变化。
他说:“我们目前尚未看到领先模型成功华为平台上训练,并不意味着未来不会发生。这可能只是时间问题。
DeepSeek和华为未回应置评请求。 |
|