第一影视网

展开菜单

DeepSeekMath-V2 开源发布,世界首个奥数金牌 AI

DeepSeekMath-V2 开源发布,世界首个奥数金牌 AI
根据 Hugging Face 页面信息,深度求索 DeepSeek 团队正式推出新一代大语言模型 DeepSeekMath-V2,专注于实现可自验证的数学定理证明能力,在数学推理的可靠性方面取得关键突破。 该模型创新性地构建了一个高精度、高保真度的验证器,并将其作为奖励机制来引导证明生成器进行自我修正,从而形成“生成—验证—优化”的闭环训练流程。为应对生成与验证双重能力同步进阶的技术难题,研究团队提出通过扩展验证计算资源,自动标注难以验证的样本数据,持续提升验证器的判断...

快手开源新一代旗舰多模态模型 Keye-VL

快手开源新一代旗舰多模态模型 Keye-VL
快手正式推出全新一代旗舰级多模态大模型 keye-vl-671b-a37b,并同步开源其代码。官方表示,该模型具备“善看会想”的能力,在通用视觉理解、视频分析、数学推理等多项核心基准测试中表现卓越,全面领先。 在保留基础模型强大通用性的基础上,Keye-VL-671B-A37B 对视觉感知、跨模态对齐以及复杂推理链条进行了系统性优化与升级,实现了多模态理解与深层推理的全方位突破:更擅长“观察”、更精于“思考”、也更善于“作答”。无论面对日常场景还是高难度任务,均能输出更准确、...

一文看懂 AI 大模型的并行训练方式(DP、PP、TP、EP)

一文看懂 AI 大模型的并行训练方式(DP、PP、TP、EP)
大家都知道,ai 计算(尤其是模型训练和推理),主要以并行计算为主。 AI 计算中涉及到的很多具体算法(例如矩阵相乘、卷积、循环层、梯度运算等),都需要基于成千上万的 GPU,以并行任务的方式去完成。这样才能有效缩短计算时间。 搭建并行计算框架,一般会用到以下几种常见的并行方式: Data Parallelism,数据并行 Pipeline Parallelism,流水线并行 Tensor Parallelism,张量并行 Expert Parallelism, 专家并行 接...

全球唯一量产5nm DXD架构显卡来了!国产象帝先自研GPU首发亮相:支持光追、超分辨率

全球唯一量产5nm DXD架构显卡来了!国产象帝先自研GPU首发亮相:支持光追、超分辨率
11月30日消息,史上第一款imagination dxd架构gpu正式流片。 从显卡独角兽象帝先获悉,近日,在成都举办的第31届ICCAD-Expo 2025展会上,Imagination Technologies精彩亮相。作为其重要合作伙伴,象帝先带来了基于Imagination DXD 架构自主研发的新一代GPU显卡。 据工作人员介绍,该显卡作为当前唯一量产的IMG DXD架构产品,其综合渲染性能相较上一代提升一倍以上,不仅能流畅运行大型3D图形类应用,更在现场实机演示...

5nm+12GB HBM显存 象帝先国产GPU能跑光追:性能翻倍

5nm+12GB HBM显存 象帝先国产GPU能跑光追:性能翻倍
11月29日,随着国产GPU技术的持续突破,多款产品已迈入主流性能行列。除摩尔线程、砺算科技和芯动科技外,初创企业象帝先也推出了基于5nm工艺自主研发的GPU——伏羲架构。 在成都举行的第31届ICCAD-Expo 2025展会上,象帝先携手Imagination Technologies联合展示了其最新成果:伏羲A0显卡。 据悉,该显卡是目前唯一实现量产的采用IMG DXD架构的产品,整体渲染能力相比前代提升超过一倍。不仅可流畅运行各类大型3D图形应用,还在展会现场实机...

“deepseek”当选网易有道词典 2025 年度词汇

“deepseek”当选网易有道词典 2025 年度词汇
近日,网易有道词典正式揭晓2025年度词汇——国产AI模型“deepseek”以高达8672940次的年度搜索量脱颖而出,成为本年度最具代表性的语言符号。这一词汇不仅体现了公众对前沿科技的高度关注,更因其蕴含“深度求索”的中文寓意,被广泛视为中国在人工智能领域自主创新精神的缩影。 据网易有道词典相关负责人介绍,“deepseek”的搜索趋势呈现出显著的爆发式增长。自年初凭借“低成本”方案突破算力限制引发热议以来,其每一次技术迭代和重大进展都持续推高用户搜索热度。 “数据显示...

DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
两个月前,我们推出了实验性版本 deepseek-v3.2-exp,并收到了大量热心用户提交的对比测试反馈。截至目前,并未发现 v3.2-exp 在任何特定任务场景下显著弱于 v3.1-terminus,这充分验证了 dsa 稀疏注意力机制的技术优势。衷心感谢广大社区用户的积极参与与持续支持,你们的反馈为我们不断突破技术边界提供了宝贵动力。 今日,我们正式发布两款全新模型: DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale。 官方网页端、移动 Ap...

DPVR亮相紫光展锐智能穿戴沙龙:AI眼镜从“技术突破”迈向“全民可用”

DPVR亮相紫光展锐智能穿戴沙龙:AI眼镜从“技术突破”迈向“全民可用”
2025年11月27日,在“2025紫光展锐智能穿戴沙龙”上,dpvr(大朋)ceo陈朝阳全面阐述了公司在智能穿戴领域的新布局,并深入探讨了大朋ai眼镜的核心设计理念。他指出,ai眼镜行业长期受困于“重量、性能、续航”这一“不可能三角”,如何在三者之间实现最优平衡,将是未来产业突破的关键方向。 陈朝阳明确表示,DPVR的使命并非局限于展示前沿技术,而是致力于推动“AI眼镜从极客圈层走向大众日常”。在他看来,“真正优秀的AI眼镜,应是一个能全天候响应的多模态伙伴,不仅能精准理...

腾讯自研大模型混元 2.0 发布

腾讯自研大模型混元 2.0 发布
腾讯自主研发的大模型混元2.0(tencent hy2.0)正式发布,与此同时,deepseek v3.2也正加速融入腾讯生态体系。当前,这两大前沿模型已率先在元宝、ima等腾讯原生ai应用中完成部署并上线,腾讯云亦同步开放了对应模型的api接口及一站式平台服务。 此次推出的Tencent HY2.0采用先进的混合专家(MoE)架构,整体参数规模达406B,其中激活参数为32B,并全面支持长达256K的上下文窗口。 相较于前代模型(Hunyuan-T1-20250822),H...

Omni-Infer v0.7.0 已经发布,超大规模 MoE 模型推理加速技术

Omni-Infer v0.7.0 已经发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.7.0 正式上线,带来面向超大规模混合专家(MoE)模型的高效推理加速能力。 v0.7.0 核心亮点 Omni Cache 新增对 MLA(Multi-Head Latent Attention)与 GQA(Grouped-Query Attention)架构的支持 引入 chunk prefill 混合调度机制,实现更优的计算图融合与内存复用 全面兼容 SGLang 接口协议,提升复杂推理流程的灵活性与易用性 性能提升...