共1篇相关文章
Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softm...