摩尔线程新方法优化AI交互 - 德阳吧

公众号手机端

摩尔线程新方法优化AI交互：显存节省最多82％

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention：以轮次块稀疏性开辟多轮对话优化新范式》，使得端到端延迟低于现在主流的Flash Attention推理引擎，kv-cache显存占用节省最多82％。摩尔线程新方法优...

摩尔线程新方法优化AI交互

1年前 (2025-03-04) 111 阅读 #人工智能

1