1
Seck 43 天前
我把他当做新工业革命的核心:
几乎每一次工业革命都有一个通用工具 第一工业:每一家企业企业配置蒸汽机,围绕这个是所有工厂,设备 第二工业:每一企业都用上电,围绕电,产生几乎所有现代设备 第三工业:互联网,技术是:网络+操作系统 ,所有关于互联网都围绕这个 这一次定位 定位是:辅助工具,简单来说 AI 辅助效率提升,内核是:大模型,外皮是各种基于大模型应用。 1 、AI 能力本身不具备普世价值,得不到普通大众的认可 2 、AI 并没有激发工程架构的配套演进 这两个问题不就解决了吗,根本不存在 |
![]() |
2
littlejohnny 43 天前
理解不了你两个问题的由来。
1 、上网的主流人群还有几个没接触或使用过 AI? 怎么会有“不具备普世价值得不到群众认可”的结论。 2 、既有的工程架构要接入 AI 必然有个过程,在我看来已经非常快了,至少在软件层面无论是 OpenAPI 还是 MCP ,都确定了深度接入各个行业领域内部的必然性和大致标准。 在我看来,这就是第四次工业革命的引擎,势不可挡。 |
3
NoOneNoBody 43 天前
实际上仍然是决策树,只不过规则从树状进化到网状,但个人认为还没达到球状,或者更高维
要达到智能体,还有很大距离,因为还没能突破边界 |
4
MidCoder OP @littlejohnny 你应该理解错误意思,这两个观点是 16 年到 ChatGPT 发布之前不具备这两个条件,而 ChatGPT 发布之后,这两个条件都有满足,所以才有现在大家感觉到大模型的时代快速发展起来
|
![]() |
5
littlejohnny 43 天前
抱歉,阅读理解有误,原来作者说的“这个阶段”指的是 2016-2022 ~~
|
6
MidCoder OP @NoOneNoBody 单纯从模型能力将肯定还没有达到 AGI 这种要求,但是当前看到的大模型能力看,是可以逐渐看到对实际生活场景带来的变化趋势,而且有可以被大规模应用的场景,确实有一些场景还存在一些边界问题,这些问题也是大模型自身能力迭代演进需要去逐步解决的。比如大模型给到的答案,我们没办法完全信任,更多的是参考,但是这个至少减少了人工过程思考推理过程,让人对事情更加专注在重点上
|
![]() |
7
wyntalgeer 43 天前
下一阶段的 AI 要进入斗争了,AI 平权注定没那么容易
|
8
MidCoder OP @wyntalgeer 我觉得真的到这个时候,单纯从技术角度看,已经发展到了足够成熟,能够达到人类对 AI 的预期。这个时候,我推测,是需要一些政治手段干预的,而不是单纯的只靠技术趋势去发展,因为技术本身不具备人性,他在这个社会更多的还是工具,怎么用好,是需要配合政治手段进行约束的。这是我的猜测,仅供参考
|
9
NoOneNoBody 43 天前
@MidCoder #6
边界不是说行业、场景之间的边界,而是主动思考的拟人化思维深度边界 |
10
MidCoder OP @NoOneNoBody 赞同,因为思考本身没有标准答案,这个就不太好定义,不管现在各类评测维度怎么评,其实都无法定义一个模型绝对的好坏,所以可能这本身就是一个不断演进的一个问题,就像不断去开发一个大脑
|
![]() |
11
coefuqin 43 天前 ![]() 全是论点,毫无论据,且论点毫无新意。
你真想有点深刻感悟,你得下沉到具体的技术层面里去,你下沉的深度决定了你的理解深度(如果你彻底理解了 ML ,DL,RL,DRL ,你会有新的更深刻的认知)。现在就是浮在外围感慨万千罢了。 以下是我的认知观点: 1 ,围绕当前 LLM 一切,已经可见发展的天花板,并很快( 1~2 年不会有代际迭代出现)逼近。 2 ,LLM 下一个 3~5 年的突破是结合具身智能,并融合当下发展起来的记忆能力,当然这并不会融合的很好( LLM 和 DRL 的融合)。 3 ,所谓的“AI”口号的下一个具体技术方向是,脉冲深度强化学习( SDL ),这是让具身智能真正有用武之地的一个很有可能能做成( 80%~90%)的路线。 4 ,所谓的“AGI”(取决于怎么定义,如果你认为现在就是 AGI ,亦可)遥遥无期(保守估计 20 年以后的事了)。 5 ,上述 4 点你可以不认可。 |
12
MidCoder OP @coefuqin 首先感谢你的指点,确实对于大模型内部的细节和模型能力本身的迭代演进方面了解不多,这方面确实受限于当前的视野所约束。这里想表达的是,作为一名非大模型领域的人员,当前的 AI 和之前有什么区别,以及站在当前我们应该要做什么,特别是作为一个互联网的工程同学。
我觉得去和专业的大模型算法去拼算法的网络结构和训练细节,并不是我们所擅长的,特别是从事互联网工程很多年的同学,所以作为这样一个角色,站在当前这个环境下,我们应该做什么是我想阐述的。 当然我觉得随着未来模型能够被规模化的应用,覆盖更多的场景。posttrain 会是比较关键的,包括前段时间 deepseek 的出现,也体现出了 RLHF 的重要性,包括采用什么策略进行 RLHF (是 REFL 还是 DPO ,还是 deepseek 提出的 GRPO ),怎么进行好的 SFT 或者 RLHF ,都和更加高质量的数据相关,或者说针对未来要进行垂类的精调,是要有更好的垂类行业数据,这样可以提升模型对垂类行业的理解和模型结果的准确率。而对比 pretrain ,可能会趋于收敛,受限于它本身的训练成本很大,对比 posttrain ,pretrain 更多的是让模型具备更大的上线去提供后续模型能力的无限可能。所以如果未来能够提供更加低成本和更加高效的 posttrain 基建,加上可以快速收集整理垂类行的高质量数据,可以加速模型在各行业的高质量落地。 |
![]() |
13
coefuqin 43 天前
@MidCoder #12 "作为一名非大模型领域的人员,当前的 AI 和之前有什么区别,以及站在当前我们应该要做什么,特别是作为一个互联网的工程同学。"
2022 之前 DRL 是主流,2022 之后生成式虽然是主流,但清醒过后就会发现 DRL 才是是真正的发展方向。 我觉得当前( 3~5 年)工程领域最佳实践就是 langchain/dify ,RAG/kAG ,mcp stack ,memory stack ,结合当前的各种前后端/移动端 去适配新旧 idea 。这产生不了跨时代的产品,只是创造二流的平庸产品。 但是想做出跨时代的产品,得有跨时代的前瞻性视野。 |
![]() |
14
coefuqin 43 天前
@MidCoder #12 预训练和后训练都已经极限,后训练里强化学习所带来的 reason 能力,是不是真的能力,目前都是争议。互联网数据已经用尽,垂直领域的数据比互联网更少。
真正的数据来源是每个人每天眼睛看到的数据,这个数据是无穷的,但是目前对这些数据的聚合在法律法规人伦道德以及技术手段来说,都还没有突破。 |
15
MidCoder OP @coefuqin 认同,我觉得要试下跨时代的产品,就是需要大家想要的 AGI 的到来。但是过程中确实需要慢慢去迭代,更主要是这个过程更多的是一个定性的问题,并不是一个定量的问题。所以在很多事情上都是摸索着推进,这里包括数据获取、法律法规的演进等。基于当前的视角看,AI 结合场景在未来三年内能够做的事情是相对比较确定的;等到三年之后,可能模型的上线再次没打破,又会进入下一个新的阶段,或许就是这样一步步迭代出一个大家想要的跨时代技术(纯属个人乐观猜想)
|
![]() |
16
coefuqin 43 天前
@MidCoder #15 我可以给你一个启发性的场景,什么时候具身智能厂商能演示:
1 ,你手中一个随机打乱的魔方。 2 ,你丢出你手中的魔方到地毯上,随机滚动到一个位置。 3 ,你给指令当前空间中的具身智能机器人:破解你丢出去的魔方并归还给你。 4 ,机器人能自动规划寻找路径,能类人一样用手拾取拾取魔方,能双手在有限时间破解魔方,成功之后将魔方递还给你。 以上这个场景随机出现,并不被厂商预训练。能演示上述场景的厂商,将领先同行一个前瞻性段位。科幻电影里的情景才可能有望在现实中出现。 |
![]() |
17
murmur 43 天前
为什么不回归本质 AIGC 这个 C ,第一个干死的就是网文、艺术、音乐类
编码和 RAG 的数据上下文茫茫多,一首歌就 4 分钟还没有上下文 suno ai 这几年太惊艳了,现在专业人士评测 AI 已经做到专业的 70 分了,这可能是普通人一辈子学不来的 为了写歌你要学乐理,配器,编曲,作词,唱歌,录音,混音,母带 但是有 AI 你一句提示词就够了 |
18
MidCoder OP @coefuqin 我觉得这个随着模型的迭代,这个应该是可以实现的,问题就是需要多久时间,这个是不确定的。就这个场景,在确定性指令的情况下,模型都应该是可以实现的,如果指令对应的场景是在现实生活中发生过的,并且可以被记录下来,那么都有可能被模型所学习到,这就是模型迭代学习的过程,通过不断加强数据的获取,确实随着时间推移,容易拿到的数据基本所剩无几了(其实现在基本到了这个阶段),后面可能就是需要结合知识性的数据去构造数据,甚至让模型自我去基于自己的输出数据去学习(其实 RLHF 也是这个过程)。现在比较难的是,模型要解决的问题域明确定义,或者是没有量化定义,所以总能举出一些反例来说明模型还不够聪明,但是这些反例放在发展的视角看,其实就是模型需要进行新的迭代的输入
|
19
MidCoder OP @murmur 但是对于真正专业的来说,还是无法被替代的,因为如果不够专业,也就写不出专业的提示词,写不出专业的提示词,模型也就无法真正的能够创作出高质量的内容。那些专业性不强或者创造性的确实会被容易替代
|
![]() |
21
coefuqin 43 天前
@xuanbg 可以给出几个解魔方解对的 demo 给机器人看,让它自己学习怎么解魔方。这是对于“大脑”泛化能力的测试。行动是对“小脑”泛化能力的测试。如果“大脑”+“小脑”都能泛化的话,说明它可以去厨房学习切菜和炒菜了。
|
![]() |
22
coefuqin 43 天前
@MidCoder #18 我举例的场景,同时测试了随机场景下,具身智能机器人的“大脑”+“小脑”的小样本或者零样本的泛化能力,这个能力是目前厂商最缺失的。如果能做到这样,就不需要像当前一样对于每个场景都做强化学习的训练了。和你理解的仅仅在 LLM 领域里的东西,完全不同。
|
![]() |
23
Machcd 43 天前
重点应该在工程,而不是被资本裹挟着一股脑去莽算法,这个思路是对的
|
![]() |
24
coefuqin 43 天前
@MidCoder #18 给你看个去年的 paper 。https://sayplan.github.io/
|
![]() |
26
coefuqin 43 天前
@xuanbg https://robopen.github.io/ 去年的 paper ,能泛化到未曾识别的物体做动作,但是真正能理解魔方解,然后双手解魔方,这个估计还要几年。
|
![]() |
28
pkoukk 43 天前
我不觉得用所谓工程技术填平缝隙这条路是对的
就像你 LangChain 写的再好,也不如模型支持 MCP AI 时代的交互模式应该是完全不同的,拿现有经验去搞的那些 agent 真是别扭,也一点都不好用 |
29
MidCoder OP @pkoukk 我觉得不管是 langchain 还是 MCP ,他目的是解决模型无法实时感知世界的问题,因为模型训练是离线的,训练完之后,他的知识储备和具备的推理思维范围,取决于训练时数据快照。而 function call 和 MCP 等这些架构工具,都是去将模型能力和现实业务场景结合起来,将实际场景的上下文实时给到模型,利用模型推理和理解去解决业务场景的问题
|
30
mwuxlcanrh 43 天前
我感觉到坚持+长期主义的意义。gpt 系列早就有了,一直被 bert 压一头。能坚持走到 3.5 ,离不开核心成员对这一方向的自信心。
|
![]() |
31
coefuqin 42 天前
@MidCoder #25 https://arxiv.org/abs/2506.01622 LLM 和 RL 结合,目前最新的研究。
|
![]() |
32
coefuqin 42 天前
@MidCoder #29 看我给你发的 google deepmind 6 月份最新的关于 world models 的研究。你当前的理解起码滞后了 2 年。2023 年的时候,deepmind 的 dreamer v3 ,就已经能感知世界了。https://danijar.com/ 这哥们儿真是个奇才。
|
33
littleW2B 39 天前
我觉得大模型应该类比云计算,不到工业革命的程度。还有具身智能的关注点太局限于算法或者软件了。比起智能程度,具身智能能源消耗和寿命更是问题。
|