对了，针对 4 楼的问题，我讲下我的理解，因为大语言模型回答的时候，是通过激活跟上下文相关的权重网络进行理解和回应的，并不是检索数据的过程，假设把 context 只针对本次 session 的参数，可能会有另一个问题，就是 context 如果是错误的，根据错误的权重网络，那么就会推导出错误的结果。

2023-12-14 22:20:11 +08:00

回复了 drymonfidelia 创建的主题 › 程序员 › 为什么大模型能记住 dataset 里几万亿字的内容，却记不住和用户聊天时两三万字的 context？

训练数据训练的过程其实不是记忆全部数据的过程，而是学习语言规律，用法，结构的过程，训练过程中会调整参数，在训练结束后，这些参数就是大语言模型的 “长期记忆”，而聊天的上下文，会传给大语言模型进行推理，找到权重相关的内容，然后组织出答案。上下文越多，关联的东西就越多，大语言模型需要进行更多的文本分析和激活更多的参数权重，所以就约束了参数的上下文长度。
上面那个是我跟 chagpt-4 一起交流出来的，然后梳理出来的我的理解，有错的欢迎交流指正

2023-07-28 20:45:33 +08:00

回复了 cloud176 创建的主题 › 职场话题 › 专注：如何提高专注力和注意力的简要指南

如果原文是英文的话，蹲个原文

2023-04-22 21:19:46 +08:00

回复了 iorilu 创建的主题 › 程序员 › 大家现在用什么字体可以分享下啊，想找个兼容中文的等宽字体

同样用 2 楼那个字体，中文叫霞鹜文体

2023-04-22 11:08:36 +08:00

回复了 sjmcefc2 创建的主题 › 程序员 › 想请教 windows 上如何阅读 epub？

@iloveoovx readwise

2023-03-26 22:48:02 +08:00

回复了 djyde 创建的主题 › 程序员 › 28 岁，我还想生猛下去

@zhaorunze 要不你分享下你的经历？

» Taikyo 创建的更多回复