量子位

2023-10-17 15:23·量子位官方账号 优质科技领域创作者

PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提

PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍
FlashAttention团队最近推出了Flash-Decoding方法,用于在Transformer架构大模型推理时加速。该方法通过并行计算每个token的注意力值,并在每一步计算过程中使用FlashAttention的优化,从而使长上下文推理变得更快。该方法已经在64k的CodeLlama-34B上得到了验证,并得到了PyTorch官方认可。
举报
评论 0