约 50 个结果
在新选项卡中打开链接
  1. 一文了解Transformer全貌(图解Transformer)

    2025年9月26日 · 网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语 …

  2. 如何从浅入深理解 Transformer? - 知乎

    Transformer升级之路:11、将β进制位置进行到底 Transformer升级之路:12、无限外推的ReRoPE? Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇 …

  3. 如何最简单、通俗地理解Transformer? - 知乎

    Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017 …

  4. Transformer模型详解(图解最完整版) - 知乎

    Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下: 第一 …

  5. Transformer 和 cnn 是两条差异巨大的路径吗? - 知乎

    Transformer 和 CNN,真的是两条差异巨大的路径吗? 两者设计逻辑不一样,但目标一致——让机器看懂东西 CNN 是图像领域的老炮,靠“局部感知+权值共享”吃饭。 简单说,它专注于看图像的局部细 …

  6. 有没有比较详细通俗易懂的 Transformer 教程? - 知乎

    Transformer目前没有官方中文译名,暂时就叫Transformer吧。 在该论文中,作者主要将Transformer用于机器翻译 [2] 任务,后来研究者们发现Transformer在自然语言处理的很多任务上都展现出了优越 …

  7. Transformer是什么? - 知乎

    Transformer模型的最终输出为每个时间步上各词元的概率分布,主要包括以下步骤: 线性层(Linear Layer):将解码器堆栈输出的每个d_model维向量投影到词汇表大小(vocab_size)维度,得 …

  8. MoE和transformer有什么区别和联系? - 知乎

    01. Transformer:像“万能翻译官”的神经网络 Transformer 是当今AI大模型(如ChatGPT)的核心架构,最初用于机器翻译,核心是自注意力机制(Self-Attention),能同时分析句子中所有词的关系,而 …

  9. 挑战 Transformer:全新架构 Mamba 详解

    2025年9月23日 · 而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 …

  10. transformer是不是深度神经网络?如果是,请回答为什么是?

    transformer是神经网络,它只是在计算 矩阵乘法 组合的方式跟 CNN 不同,它依然可以通过堆叠层数来提高特征提取能力,这两点可以说明transformer只是CNN的一种。