关于大模型原理的感叹

llm

大语言模型

神奇

78 条回复 • 2025-11-26 18:27:09 +08:00

1

thinszx

2 天前

原理其实从 bert 甚至从 lstm 、一维 cnn 起就没变过，之后 chatgpt 是量变引起质变的验证，感兴趣可以看看一维 cnn 做时序预测相关的工作就知道了

2

whoosy

2 天前

1

大模型的调参对专门研究 LLM 算法的人，也像是一个黑盒，很多时候依赖经验主义和大量的实验探索。

3

YanSeven

OP

2 天前

@thinszx 这里说的“量变”到“质变”说的是“涌现”吗。但是，仍然比较好奇，怎么就涌现了，为什么会涌现。

4

cmdOptionKana

2 天前

4

确实很神奇。但也有很多人感受不到这种神奇。我就见过有些人对魔术也感受不到神奇的，他们会认为 “哦，虽然我看不破，但反正就是你用了某种方法骗我，仅此而已”。LLM 也一样，有些人会感觉“反正你们是专家，你们把这个研究出来是应该的”，甚至还会嫌弃 LLM 太笨，鄙视一番。

5

maplezzz

2 天前

我也觉得很神奇，能不能理解为 LLM 从训练知识里归纳出了一个参数量足够大足够多的语言推理函数，通过用户的输入和这个函数以此来预测接下来的输出

6

DICK23

2 天前

确实是长久的积累引起的质变。AI 概念很在就被提出了，昨天还刷到了辛顿博士一九八几年的时候演示图形识别技术的微博，确实挺震撼的

7

czkm1320

2 天前

目前宇宙本质是数学来着，ai 一个字一个字根据概率和相关性往外输出文字，本质都是统计学，数学算法集大成

8

nno

2 天前

@YanSeven
还找不到真正原因。都是些猜测，比如系统论的猜测：系统复杂性上来之后就会带来新的特性
而且说是涌现，但和真实智能还是有差距的；

9

dog82

2 天前

就是一个超级大型的矩阵，通过前向学习和反向传播使这个大矩阵更准确。
高等数学+线性代数就够了

10

risan

2 天前

你可以了解一下“涌现”，会有自己的答案的

11

xtreme1

2 天前

这不是前两年的日经话题么, 主流的一个观点是(我的总结不一定准确), 人类自己的"学习理解"就是在压缩信息, 即找到最短的编码方式, 而这和"预测哪个字最可能出现", 在数学上是同一回事. 相关文章可以搜索 Compression is Intelligence.

12

jonsmith

2 天前 via Android

AI 炼丹师，LLM 的内部逻辑是未解之谜。

13

meihuanyu88x

2 天前

知道了原理以后，依旧会觉得它是魔法.

14

sillydaddy

2 天前

3

你不是一个人。即使是如杨立昆或辛顿这样的行业内专家，也不理解。大模型就是一个黑盒。辛顿是这样解释 LLM 的：你把文字转为另一个空间的向量，这个向量表达了文字的各种 feature ，然后这个向量经过了 LLM 的复杂操作，输出一个同样表达各种 feature 的新向量。这就是“理解”的含义。

可以看一下 3blue1brown 相关的科普视频，****几千万次****的播放量：

&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=7

15

IndexOutOfBounds

2 天前

@meihuanyu88x 这个同感，我自己撸了个玩具模型，过程中问了很多 Why ，依然不敢说有很透彻的了解，不过也正常可解释性目前也还只是研究方向

https://github.com/glidea/tinygpt

16

ShinichiYao

2 天前

你不需要知道大脑是怎么工作的，你只要照着上帝的设计把它通过电路模拟出来就行了

17

apkapb

2 天前

我突然想到：

0-1 是最难的，现在 AI 已经过了 0-1 了，这会导致大量的企业投入巨量资金来研究，以后肯定会越来越好的。

18

TabGre

2 天前 via iPhone

@sillydaddy 地址好像不全

19

cmdOptionKana

2 天前 via Android

@ShinichiYao “上帝的设计”是指什么？

20

LaurelHarmon

2 天前

24

“原理从 Bert 甚至从 lstm..没变过”这样说不对，bert 是判别模型，gpt 是生成模型，压根不是一个路子。BERT 属于走了岔路，跟当前的生成模型进步没啥关联。

真正一步一个脚印的基石是
AlexNet(2012 ，横空出世，证明了神经网络有用）
word2vec （ 2013 ，文字到向量，文字也能打上神经网络便车）
Attention 机制用于机器翻译（ 2014,发明 Attention 机制，简单有效，天才的创新）
Attention 用于文本蕴含（ 2016 ，加入全盘 Attention ，Transformer 的灵感源泉与雏形）
ResNet （ 2016 ，残差链接，支持深度网络）<---中国人在 LLM 发展浪潮中为数不多的原创性贡献--->
Attention is All you need (2016 ，抛弃 LSTM ，彻底采用纯 Attention(Transformer)，划时代工作）
GPT-1 （ 2018 使用 Transformer 做生成，小有成就）
GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了，这才是量变引起质变）
所以不仅仅量变引起质变，还是一步一个台阶走上来的
其中走了很多网路（例如 BERT ，抛弃了很多旧时代的东西例如 LSTM ，CNN ）

21

thinszx

2 天前

1

@YanSeven 我自己的理解是，从统计学的角度出发，深度学习模型拟合的是数据集的高维分布，我们可以假设不管模型大小，深度学习模型的权重都由很多个不同分布的低维高斯分布构成，同样地，我认为人类对于世界的拟合也可以看作很多个高斯分布的复杂组合，即不管是语言、图像还是什么模态，都可以看做是人类对世界的 embedding ，大模型之所以能涌现，是因为输入的人类对世界的 embedding 足够多，因此帮助了大模型将自己的输入输出空间对齐到了人类对世界的拟合维度，你可以认为是因为大模型真的认识到了世界，所以才会出现涌现的现象，当然语言只是对世界的片面描述，这也是为什么李飞飞等人转向了世界模型，用机器人在真实世界的强化学习过程来帮助大模型真的认识世界

22

thinszx

2 天前

@LaurelHarmon 我指的是最基本的先验后验的学习过程，理解和生成一个是学习分布一个主要是从学习后分布采样那肯定是不一样的，但我觉得不管是自监督强化学习最本质的贝叶斯出发的想法是不变的

23

forisra

2 天前

虽然现在的大模型因为上下文问题和原始论文《 attention is all you need 》的那个模型已经天差地别，但在理解大模型上看关于这个论文解析也差不多了。

原始论文就没必要看了，这个论文表达不怎么样，可能是当时的谷歌工程师一直做 NLP 很多表达没有照顾其他领域的人。画的图也比较抽象。我觉得看李沐的论文解析，或者看看 3Blue1Brown 的视频理解都行：

24

sillydaddy

2 天前

1

@TabGre #18 我发的完整链接是 3blue1brown 的一个播放列表（关于机器学习的），不止包含上面那个视频，可惜链接被自动截断了，可以在 3blue1brown 频道的播放列表里面找到这个列表，包含了 7 ，8 个神经网络的视频，非常通俗易懂。

25

Rickkkkkkk

2 天前

高维下空间稀疏，不会过拟合

26

zhanying

2 天前 via Android

还有一个很神奇的思维实验，和 llm 原理勉强能靠上边，粘贴过来给大家看看:

“中国脑是心灵哲学中的一个思想实验，探讨了如果每个中国人被要求使用电话或对讲机模拟大脑中一个神经元的动作，会发生什么情况。对讲机模拟连接神经元的轴突和树突。这会使中国人整体像大脑一样具有思想或意识吗？”

27

visper

2 天前

是啊，太神奇了。感觉就这么一个预测下一个 token, 在参数量上来后，竟然直接给涌现出这样的能力，遵循指令，写代码等。难以想象。

28

815377546

2 天前

@sillydaddy #14 感谢分享

29

monway

2 天前

@IndexOutOfBounds 好东西

30

lscho

2 天前

@cmdOptionKana 神经元。。。LLM 的核心就是神经网络，结构都是参考人脑的神经元

31

sunice

2 天前

@cmdOptionKana #19 自然选择

32

flyooh

2 天前

可以读一下吴军写的《数学之美》上面讲得更基础。

33

henix

2 天前

1

个人认为可以类比到输入法，输入法也是在预测“你前面说了这些，然后最可能说什么”

34

chenY520

2 天前

@IndexOutOfBounds 什么配置可以玩这个？

35

IndexOutOfBounds

2 天前

@chenY520 我是 mac mini m4 ，内存占用不大，理论都能跑时间长短而已

36

lifei6671

2 天前

8

训练 AI 模型并不是“把知识塞进机器”，而是“让机器学会规律”。
模型文件中不存储事实，而是存储事实之间的结构性相似与概率模式。
它不能“知道”，但能模拟知道。
它没有“理解”，但能逼真地产生理解的表现。
当你与 AI 对话时，你看到的是：
一台高维函数机器，在数学空间里对语言的概率进行实时采样。
这既是它的局限，也是它的奇迹。

37

chenY520

2 天前

@IndexOutOfBounds #35 我用 N 卡跑的话，大概要多少显存资源

38

kevan

2 天前

推理确实神奇。游戏里的 Transformer 更 NB

39

kevan

2 天前

1

推荐： https://transformers.run/

40

IndexOutOfBounds

2 天前

@chenY520 #37 3060 应该就行，可以先试试，运行时会预估训练时间
如果太长，可以尝试减少模型参数，反正补全句子有基本语法结构就差不多，不用追求效果，主要是学原理

41

chenY520

2 天前

@IndexOutOfBounds #40 好的感谢大佬，fork 项目学习一下

42

cocong

2 天前

正常，人脑为何能诞生智能都是未解之谜

43

pipi32167

2 天前

如果不追究细节，理解这一点就够了：只要参数足够多，训练得当，就能拟合世间万事万物。

44

zerovoid

2 天前

确实很神奇

45

Enivel

2 天前

@zhanying 会, 本质上就是蜂群思维, 个体间相互影响产生了群体意识

46

AoEiuV020JP

2 天前

同感，关键是这种感觉是大概 22 年 chatGpt 横空出世才有的，
而在 chatGpt 之前就已经有这种技术了，或者说人工智能深度学习神经网络一直都是这样的东西，但是到了 chatGpt 突然炸了，和以前完全是一个天一个地，第一次真的能像个人一样交流了，虽然这个”人“有点傻，有点轴，但感觉就是量变引起质变，

47

p1094358629

1 天前

智能机器人也是下一个爆点，让 ai 从虚拟走向现实。目前受限于能源、算力，但是会有那么一天的

48

iyaozhen

1 天前

@henix

哪个输入法有这个功能？几乎没有上下文

49

raydied

1 天前

我倒觉得，大模型的原理是有限神奇。

如果你熟悉 yolo 的模型训练过程，那么，你大概率会认为两者的本质是一样的。
目前大模型能预测下一个 token （所谓的推理能力)。
在我看来，我更倾向于它是十分类似 yolo 的回归拟合。

我认为，推理必须是建立在因果律上的，这个是不能通过预测学来的。

当然，大模型也给了我新的思考。
至少，我之前坚定地认为这个世界是唯物主义的，但大模型动摇并改变了我的这个想法。

即使没有因果，谁说概率模型就不能解决很多问题了呢？

50

Rorysky

1 天前

其实本质上神奇的是人类语言

很可能语言本身就是智能

51

liyafe1997

1 天前

LLM 没啥神奇的原理，总结起来就一个词：力大砖飞

52

callmesmc

1 天前

人脑本来就是一堆神经细胞链接啊，和 ai 是差不多的

53

anonymous00

1 天前

学过统计和审计学的话，起码能理解最初的 3 成演化历程，再后面是进阶的分析、归纳和预测，目前尚无完备体系的教材。

54

mizuhashi

1 天前

@Rorysky 我也這麼想，語言本身就是對感官數據的擬合

55

red13

1 天前

逃不出逻辑、数学和物理的边界，没什么神奇的

56

smlcgx

1 天前 via iPhone

1

乔姆斯基已经指出了，就是纯粹的暴力，吃了算力进步的红利

57

liuidetmks

1 天前

不知道你看过鬼谷藏龙（一个 b 站生物 up ）的一期视频没有，
有一种单细胞动物，
可以独自生存，也能组合起来，
但是他们组合起来成为一个集合体的时候，他们似乎产生了智慧，超越了简单的趋利避害
他们各个部分能协调工作，各司其职，有的负责运动，有的负责生殖...
似乎，他们整体也成为了一整个生命，就像人一样

----

智慧的产生可能不是来自于物质，而是来自于网络。
这个领域属于上帝，人类还无法完全理解

58

Huelse

1 天前

transformer 是划时代的出现，充分利用了并行计算，然后就是算力大爆发，就此形成大模型的雏形

59

horizon

1 天前

@cmdOptionKana #4
哈哈哈，下面有回复就是你说的这种人

60

cmdOptionKana

1 天前

@horizon 见过太多了，他们就是无法感受神奇。

61

CodingIran

1 天前

@liyafe1997 你这个不就是看魔术时的“不就是手快”嘛，题主就是想知道为什么“力大”就可以“砖飞”

62

latelan

1 天前

@raydied
> 至少，我之前坚定地认为这个世界是唯物主义的，但大模型动摇并改变了我的这个想法。
这句话怎么理解呢

63

coefu

1 天前

@thinszx #19 有点理解的，确实如此。量大让统计学提升了性能。LLMs 只是数字幽灵。只是从文字中窥探了部分人类所谓的“智能”。

64

coefu

1 天前

@maplezzz 当前最新的研究表示这个“函数”还是可逆的。

65

litchinn

1 天前

从罗森布拉特感知器开始理解会容易很多，因为发展到后面人们已经不去理解训练过程中发生了什么，因为理解不了

66

loryyang

1 天前

其实哪怕知道了其中许多原理，也会觉得挺神奇的。因为现在的大模型基本上能达到，人类之前觉得机器不可能实现的思维深度。虽然在部分情况下与人有一定的差距，但这已经是突破了人类对机器智能的认知。
而且另外一个角度上看，我觉得，现在很多时候，你觉得大模型笨，已经不是大模型的问题，而是你给的背景不够多

67

Alias2023

1 天前

本质还是查找，所以谷歌会赢

68

raydied

1 天前

@latelan #62
我的转变是这样的。
我原来相信世界是客观存在、独立于意识的，人们探究这个世界是通过因果律来进行的。
大模型的发展让我明白：我们想要接近那个客观世界，也可以通过不断构造对它的描述来实现；因为模型本身并不理解因果，只是依靠统计描述却能逼近“理解”。也就是说，智能可能并不需要完全触及世界的本体，只需要不断改进描述。
我因此开始怀疑，我们探究这个世界，除了使用唯物主义和因果律机制；也可以使用类似大模型的方式，去建立对世界不断迭代的描述体系——这是唯心主义所提倡的。

69

freekindom

22 小时 28 分钟前

你是外行，所以你才觉得大模型很神奇。
对于我们内行来说，这玩意更神奇。

70

hzzhzzdogee

19 小时 43 分钟前

@Rorysky true

71

cnt2ex

19 小时 6 分钟前

@LaurelHarmon
BERT 不是什么判别模型，仅仅是一种预训练的方法。

BERT 和 GPT 的最大区别在于，BERT 是做完形填空，而 GPT 是做下一个单词预测。BERT 这种完形填空（掩盖+预测）的做法也并非不能拿来训练一个生成模型，比如 MaskGIT 就是用掩盖+预测方式训练的生成模型。

而且也很难说 BERT 就是“岔路”，GPT 就是正确的路线。研究本就有跟风的习惯，一个方向被打通过后，很多人就都凑上来搞。
谁知道未来会不会有人发现 GPT 成功的真实原因然后将其应用到 BERT 上，又或者 GPT 的缺陷被发现转而投向 BERT 呢？

72

zhangsimon

9 小时 18 分钟前

@raydied 哈哈，看大家交流确实很颠覆。那这种非因果也能解决大部分问题，是不是和玄学类似呢（星座，紫薇），两个能不能结合

73

zhangsimon

9 小时 15 分钟前

@zhanying 你说的这个实验，类似《三体》里的人体矩阵计算器？

74

windgreen

8 小时 59 分钟前

@Rorysky 赞同，是因为人类语言资料已经包含了人类的思考逻辑。

75

windgreen

8 小时 51 分钟前

有一个涌现理论可以很好解释，低尺度的随机互动在高尺度上涌现出物理法则。不管是量子力学到广义相对论，还是从分子到生命，从随机数到 AI ，从人到社会文明，都是这个过程。我认为现有人工神经网络都是提高建模维度，来处理散落在低纬度的信息，和弦论挺像。

76

latelan

5 小时 21 分钟前

@raydied 虽然没有完全体会到，但觉得好有意思的观点。通过学习大模型机制来改进自我学习的过程。

77

zhanying

5 小时 19 分钟前

@zhangsimon 不太一样，三体里的是每个人作为一个门电路组成计算机，这个是每个人作为一个神经元产生群体意识，结果就是整个人类群体宏观上像是一个有自我意识的生物

78

JCS

1 小时 29 分钟前

那现在各家公司优化自己的模型, 具体是在优化什么呢?