资讯
6 天
科技行者 on MSNMiniMax 突破语音合成极限:全新 MiniMax-Speech 技术让 AI 说话更像真人2025年5月12日,人工智能公司 MiniMax 在 arXiv 预印本平台发布了一篇题为《MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker ...
9 天
至顶头条 on MSNZencoder 推出 Zen Agents,开启软件开发团队协作 AI 新纪元Zencoder 宣布推出 Zen Agents,该平台支持整个组织范围内创建和共享面向软件开发的专业化 AI 工具。此次发布版本还包含了一个开源市场,开发者可以在其中贡献和发现定制化代理,这标志着开发团队利用人工智能方式的重大转变。 虽然现有的 ...
吴思泽,南洋理工大学MMLab@NTU四年级博士生,导师是Chen Change Loy,研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等,在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。 GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力,然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务,是一个巨大的挑战。从视觉表征的维度看,现有的统一模型通常 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果