快科技1月13日消息,花旗银行在最新报告中指出,随着NVIDIA采用推论情境记忆存储(Inference Context Memory Storage,ICMS)等新技术,全球NAND供应短缺的状况将进一步恶化。 在AI推理过程中,为了避免重复计算、提升响应速度,系统会使用 KV缓存机制,类似于AI模型的“短期记忆”,但随着上下文长度的爆炸式增长,昂贵的HBM早已不堪重负。 为了解决这一瓶颈,NV ...