Attention Encoder - 搜索 News

4 天

腾讯纯文本LLM训视觉encoder，拿捏图表长视频，达到开源小模型SOTA！

这项研究跳出了先有传统视觉 backbone，再接语言模型的常规路径，直接从text-only LLM初始化vision encoder。可一旦任务变成文档阅读、图表理解、细粒度描述、多图关系判断，甚至长视频里的时间定位，模型真正需要保住的，恰恰是那些不该太早被抹平的局部结构、空间关系和时序细节。

一些您可能无法访问的结果已被隐去。