深度学习¶ 神经网络层¶ 激活函数 损失函数 归一化 多层感知机 注意力机制 LLM from scratch¶ 注意力机制 编码器与解码器 验证transformer实现 绝对位置编码 验证bert实现 RoPE transformer变种 验证Llama-2实现 大模型推理 评论