IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布, 已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架 。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU ...
长文本任务是当下大模型研究的重点之一。在实际场景和应用中,普遍存在大量长序列(文本、语音、视频等),有些甚至长达百万级 tokens。扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本,更是能够更好地建模文本段落间信息的 长程依赖关系 ...
Preface前言杨松琳专注于线性注意力机制、机器学习与大语言模型交叉领域,聚焦高效序列建模的硬件感知算法设计,围绕线性注意力、循环神经网络优化开展研究,并取得多项研究成果,多篇论文被 ICLR 2025、NeurIPS 2024 ...
在人工智能领域的一次重大突破中,得一微电子(YEESTOR)近日隆重推出了其革命性的AI-MemoryX显存扩展解决方案。该方案凭借公司自主研发的存储控制芯片与创新的AI存储系统技术,成功打破了单机显存容量限制,使得DeepSeek系列的大模型,如3 ...
平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果