无需CUDA代码!H100加速提升33%-50%,Flash Attention作者新作引发热议
普林斯顿团队推出纯Python开发的QuACK内核库,采用CuTe-DSL技术,在H100显卡上比PyTorch提速33%-50%。研究聚焦内存密集型内核优化,通过精准处理GPU内存层级结构
2025-07-12
55
0

1