GPU Cache - 搜索 News

2 小时

焱融存储YRCloudFile发布面向AI推理的分布式KV Cache特性,推理,上下文 ...

59 分钟

2006年，英伟达推出了Tesla架构的第一代（G80），开启了GPU通用计算探索。Tesla架构之前的显卡也经历了几代的发展，但基本上是图形显卡。而它采用全新的CUDA架构，支持使用C语言进行GPU编程，可以用于通用数据并行计算。这成为英伟达改变自身命运的重要转折点。 Tesla G80是第一款实现CUDA架构的GPGPU ...

腾讯网11 小时

如何监控vLLM等大模型推理性能？

阿里妹导读本文将深入探讨 AI 推理应用的可观测方案，并基于 Prometheus 规范提供一套完整的指标观测方案，帮助开发者构建稳定、高效的推理应用。近两年来，随着大语言模型（LLM）的快速普及，AI 推理应用的需求呈指数级增长。以 ...

5 小时

简单又安全用酷睿AI PC实现零门槛本地AI助手部署

同时，基于英特尔酷睿Ultra系列处理器打造的AI PC，可以说是性能体验最好、稳定性最好、兼容性最好的本地化AI部署平台。Ollama、Flowy、LM Studio、Miniforge等常用软件全部支持，并且支持Intel ...

6 小时

理想最新智驾架构公布！下半年上车

在今天的GTC2025上，理想汽车智驾负责人贾鹏首次公开了理想汽车在封闭开发VLA技术后的最新进展。日前，有媒体报道称其为了攻克VLA技术启动了封闭开发，目标是在2025年下半年实现VLA技术的量产上车。

23 小时

苹果杀疯了，Mac Studio内存狂飙，跑满血DeepSeek R1消耗448GB，M3 Ultra竟然 ...

最终，DeepSeek R1 在 M3 Ultra Mac Studio 表现不错。虽然这里用的是 4-bit 量化版本，牺牲了一定的精度，但模型依然保持了完整的 6710 亿参数，速度为 16-18 ...

什么值得买社区频道 on MSN7 小时

游戏生产力双修！9950X3D搭配微星X870E刀锋钛全面测评

今天要聊的这颗 U，堪称 2025 年 DIY 圈最炸裂的存在—— AMD 锐龙9 9950X3D。 AMD 的 X3D 系列处理器，从 5800X3D ...

腾讯网13 天

摩尔线程 Round Attention：以轮次块稀疏性开辟多轮对话优化新范式

【编者按】摩尔线程科研团队发布研究成果《Round Attention：以轮次块稀疏性开辟多轮对话优化新范式》，该方法端到端延迟低于现在主流的Flash Attention推理引擎，kv-cache 显存占用节省55%到82% 。

14 天

摩尔线程新方法优化AI交互：显存节省最多82％

摩尔线程科研团队近日发布了一项新的研究成果《 Round Attention：以轮次块稀疏性开辟多轮对话优化新范式》，使得端到端延迟低于现在主流的Flash Attention推理引擎，kv-cache显存占用节省最多82％。

什么值得买社区频道 on MSN4 小时

Redmi悄悄发新笔记本电脑Book 14 2025 焕新版

小米近日推出了全新的 Redmi Book 14 2025 焕新版，这款笔记本在配置上进行了升级，搭载了英特尔酷睿 i5-13420H 处理器，1 ...

8 天

AMD基于Zen 6的台式机处理器可能具有多达24个内核

据 ChipHell 的消息来源 AMD 即将推出的 Zen 6 处理器仍将与 AM5 兼容，但它们将引入一种新的基于小芯片的 CPU 设计，并显着增加台式机和笔记本电脑产品的内核数量。面向游戏玩家的高级处理器还将配备 3D V-Cache。

4 天

刚刚，谷歌用更少参数打败 Qwen 2.5-32B，新模型 Gemma 3 号称“单 GPU ...

谷歌在其官方博客中表示，Gemma 3 是一组轻量级的模型，开发者可以在手机、笔记本电脑以及工作站这些设备上直接快速地运行。该模型支持超过 35 种语言，并具备分析文本、图像及短视频的能力。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果