关闭 More 保存 重做 撤销 预览

   
关闭   当前为简洁模式,您可以更新模块,修改模块属性和数据,要使用完整的拖拽功能,请点击进入高级模式
http://www.odty595.net
https://t.me/FIL389 https://t.me/magicianSMS_bot

上一主題 下一主題
»
好办法割发
LV3 流浪的疾风
帖子    65
新博币    648 提现
提现    0
     
    498 1 | 显示全部楼层 |倒序浏览
    本帖最后由 车车飞飞 于 2025-8-15 20:22 编辑

    image.png

    中国人工智能公司DeepSeek因无法使用华为芯片对新模型进行训练,已推迟该模型的发布,这凸显了北京方面推动替代美国技术的努力所面临的局限性。

    据三位知情人士透露,DeepSeek在1月发布R1模型后,被当局鼓励采用华为的Ascend处理器,而非使用英伟达的硬件。

    知情人士透露,DeepSeek在使用 Ascend 芯片进行 R2 训练过程中遇到了持续的技术问题,迫使其转而使用 Nvidia 芯片进行训练,使用华为的芯片进行推理,

    这些问题是该模型发布推迟至五月的主要原因,这导致其在与竞争对手的竞争中处于下风。

    训练是指模型从大量数据集中学习,而推理则是指使用训练好的模型进行预测或生成响应的步骤,例如聊天机器人的查询。

    DeepSeek的困难表明,中国芯片在关键任务上仍落后于美国同行,凸显了中国实现技术自主的挑战。

    《金融时报》本周报道称,北京方面已要求中国科技公司解释采购英伟达H20芯片的理由,此举旨在鼓励和推广使用华为和 Cambricon 等国内厂商的替代产品。

    行业人士指出,中国芯片在稳定性、芯片间连接速度及软件性能方面均逊于英伟达产品。

    据两位知情人士透露,华为派出一支工程师团队前往DeepSeek办公室,协助该公司利用其AI芯片开发R2模型。然而,尽管有团队在现场提供支持,DeepSeek仍无法在Ascend芯片上成功完成训练运行。

    知情人士表示,DeepSeek仍在与华为合作,以使该模型与Ascend芯片兼容进行推理。

    创始人梁文峰在内部表示,他对R2的进展感到不满,并一直在推动投入更多时间来构建一个先进的模型,以维持公司在人工智能领域的领先地位。

    R2的发布也因其更新模型所需的数据标注时间比预期更长而被推迟。

    加州大学伯克利分校的人工智能研究员Ritwik Gupta表示: 模型是可以轻松替换的通用工具,许多开发者都在使用阿里巴巴的Qwen3,因为它功能强大且灵活。

    Gupta指出,Qwen3采用了DeepSeek的核心概念,例如其训练算法使模型具备推理能力,但使其使用效率更高。

    作为华为人工智能生态系统观察者的Gupta指出,该公司目前在使用Ascend进行训练时正面临“成长的阵痛”,但他预计这家中国科技巨头最终将适应这一变化。

    他说:“我们目前尚未看到领先模型成功华为平台上训练,并不意味着未来不会发生。这可能只是时间问题。

    DeepSeek和华为未回应置评请求。
    本专区转载内容来源网络公开渠道,版权归原作者,平台不承担真实性及立场。转载请注明出处。
    如有侵权问题,请联系管理员处理:Telegram @boniuom
    个人签名


    喝咖啡嘎斯
    LV3 流浪的疾风
    帖子    50
    新博币    648 提现
    提现    0
       
      这么强,支持楼主,佩服
      个人签名


      您需要登录后才可以回帖 登录 | 立即注册

      本版积分规则

      关闭

      博牛社区 x 菠菜圈上一条 /1 下一条

      快速回复 返回顶部 返回列表