deepseek 第44页_第一影视网

DeepSeek 新论文提出“流形约束超连接”（mHC）框架，梁文锋参与撰写

deepseek团队近期发布了一篇题为《mhc: manifold-constrained hyper-connections》（《mhc：流形约束超连接》）的论文，正式推出全新网络架构——mhc（流形约束超连接）。该设计聚焦于缓解大规模模型训练过程中普遍存在的不稳定性难题，有望为未来基础模型架构的升级提供关键思路。论文作者名单中，DeepSeek创始人兼CEO梁文锋位列联合作者，核心研发工作由解振达（Zhenda Xie）、韦毅轩（Yixuan Wei）与曹焕琪（Huan...

2026-01-09/ 75 次浏览/ 资讯

英伟达 GB200 NVL72 性能超越 AMD MI355X 达 28 倍

在最新公布的 semianalysis inferencemax 基准评测中，signal65 对 deepseek-r1 0528 混合专家（moe）模型的推理能力进行了深度评估。结果显示，英伟达（nvidia）gb200 nvl72 机架级系统在同等规模下，推理性能显著超越 amd instinct mi355x 集群。混合专家架构的核心优势在于按需调用最适配任务的“专家”子模型，从而提升计算效率；但当模型规模持续扩大时，节点间通信延迟与带宽压力随之加剧，极易演变为系统...

2026-01-09/ 77 次浏览/ 资讯

智谱首席科学家唐杰：很快将推出新一代模型 GLM-5

晚点独家获悉，1 月 8 日智谱上市当天，清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信，宣布很快将推出新一代模型 GLM-5。唐杰说，今天是 “智谱生命中激动人心的一天”。他没有直...

2026-01-09/ 87 次浏览/ 资讯

‹‹ ‹ 35 36 37 38 39 40 41 42 43 44 ››