DeepSeek在人工智能竞赛中因芯片问题陷入困境

博牛社区 › 最新动态 › 国际新闻

电梯直达 »

返回列表

好办法割发
LV3 流浪的疾风

帖子 65

新博币 648

提现

提现 0 元

发表于 7 天前 498 1 | 显示全部楼层 |倒序浏览

楼主

本帖最后由车车飞飞于 2025-8-15 20:22 编辑

中国人工智能公司DeepSeek因无法使用华为芯片对新模型进行训练，已推迟该模型的发布，这凸显了北京方面推动替代美国技术的努力所面临的局限性。

据三位知情人士透露，DeepSeek在1月发布R1模型后，被当局鼓励采用华为的Ascend处理器，而非使用英伟达的硬件。

知情人士透露，DeepSeek在使用 Ascend 芯片进行 R2 训练过程中遇到了持续的技术问题，迫使其转而使用 Nvidia 芯片进行训练，使用华为的芯片进行推理，

这些问题是该模型发布推迟至五月的主要原因，这导致其在与竞争对手的竞争中处于下风。

训练是指模型从大量数据集中学习，而推理则是指使用训练好的模型进行预测或生成响应的步骤，例如聊天机器人的查询。

DeepSeek的困难表明，中国芯片在关键任务上仍落后于美国同行，凸显了中国实现技术自主的挑战。

《金融时报》本周报道称，北京方面已要求中国科技公司解释采购英伟达H20芯片的理由，此举旨在鼓励和推广使用华为和 Cambricon 等国内厂商的替代产品。

行业人士指出，中国芯片在稳定性、芯片间连接速度及软件性能方面均逊于英伟达产品。

据两位知情人士透露，华为派出一支工程师团队前往DeepSeek办公室，协助该公司利用其AI芯片开发R2模型。然而，尽管有团队在现场提供支持，DeepSeek仍无法在Ascend芯片上成功完成训练运行。

知情人士表示，DeepSeek仍在与华为合作，以使该模型与Ascend芯片兼容进行推理。

创始人梁文峰在内部表示，他对R2的进展感到不满，并一直在推动投入更多时间来构建一个先进的模型，以维持公司在人工智能领域的领先地位。

R2的发布也因其更新模型所需的数据标注时间比预期更长而被推迟。

加州大学伯克利分校的人工智能研究员Ritwik Gupta表示：模型是可以轻松替换的通用工具，许多开发者都在使用阿里巴巴的Qwen3，因为它功能强大且灵活。

Gupta指出，Qwen3采用了DeepSeek的核心概念，例如其训练算法使模型具备推理能力，但使其使用效率更高。

作为华为人工智能生态系统观察者的Gupta指出，该公司目前在使用Ascend进行训练时正面临“成长的阵痛”，但他预计这家中国科技巨头最终将适应这一变化。

他说：“我们目前尚未看到领先模型成功华为平台上训练，并不意味着未来不会发生。这可能只是时间问题。

DeepSeek和华为未回应置评请求。

模型, 使用, 芯片, DeepSeek, 训练

本专区转载内容来源网络公开渠道，版权归原作者，平台不承担真实性及立场。转载请注明出处。
如有侵权问题，请联系管理员处理：Telegram @boniuom