多模态大模型MLLMs为何难以满足现实世界需求?token压缩是关键 2025年9月13日 作者 fme 多模态大模型MLLMs 能够处理高分辨率图像、长视频序列和冗长音频输入等复杂上下文,但自注意力机制的二次复杂度使得大量输入 token 带来了巨大的计算和内存需求。 如下图