V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  MidCoder  ›  全部回复第 1 页 / 共 2 页
回复总数  31
1  2  
73 天前
回复了 song3286791241 创建的主题 分享创造 浙大学生创业,求各位大佬指点
是有基于垂类数据做了模型的 finetune 吗?我前段时间也有一个类似的想法,今年在视觉类的生成大模型方向各个厂商都有比较多的发力,不管是国内、还是国外都有比较不错的模型公布出来,但是作为非视觉专业的用户,如何让模型生成效果、内容上更好的视频/图片内容,这里有一个空隙需要去填补,这个就是 PE ,如何提供不同垂类的 PE 能力,去优化更加符合视觉大模型理解的提示词。
支持独立开发
@pkoukk 我觉得不管是 langchain 还是 MCP ,他目的是解决模型无法实时感知世界的问题,因为模型训练是离线的,训练完之后,他的知识储备和具备的推理思维范围,取决于训练时数据快照。而 function call 和 MCP 等这些架构工具,都是去将模型能力和现实业务场景结合起来,将实际场景的上下文实时给到模型,利用模型推理和理解去解决业务场景的问题
@coefuqin 感谢,我学习一下
@murmur 但是对于真正专业的来说,还是无法被替代的,因为如果不够专业,也就写不出专业的提示词,写不出专业的提示词,模型也就无法真正的能够创作出高质量的内容。那些专业性不强或者创造性的确实会被容易替代
@coefuqin 我觉得这个随着模型的迭代,这个应该是可以实现的,问题就是需要多久时间,这个是不确定的。就这个场景,在确定性指令的情况下,模型都应该是可以实现的,如果指令对应的场景是在现实生活中发生过的,并且可以被记录下来,那么都有可能被模型所学习到,这就是模型迭代学习的过程,通过不断加强数据的获取,确实随着时间推移,容易拿到的数据基本所剩无几了(其实现在基本到了这个阶段),后面可能就是需要结合知识性的数据去构造数据,甚至让模型自我去基于自己的输出数据去学习(其实 RLHF 也是这个过程)。现在比较难的是,模型要解决的问题域明确定义,或者是没有量化定义,所以总能举出一些反例来说明模型还不够聪明,但是这些反例放在发展的视角看,其实就是模型需要进行新的迭代的输入
@coefuqin 认同,我觉得要试下跨时代的产品,就是需要大家想要的 AGI 的到来。但是过程中确实需要慢慢去迭代,更主要是这个过程更多的是一个定性的问题,并不是一个定量的问题。所以在很多事情上都是摸索着推进,这里包括数据获取、法律法规的演进等。基于当前的视角看,AI 结合场景在未来三年内能够做的事情是相对比较确定的;等到三年之后,可能模型的上线再次没打破,又会进入下一个新的阶段,或许就是这样一步步迭代出一个大家想要的跨时代技术(纯属个人乐观猜想)
@coefuqin 首先感谢你的指点,确实对于大模型内部的细节和模型能力本身的迭代演进方面了解不多,这方面确实受限于当前的视野所约束。这里想表达的是,作为一名非大模型领域的人员,当前的 AI 和之前有什么区别,以及站在当前我们应该要做什么,特别是作为一个互联网的工程同学。
我觉得去和专业的大模型算法去拼算法的网络结构和训练细节,并不是我们所擅长的,特别是从事互联网工程很多年的同学,所以作为这样一个角色,站在当前这个环境下,我们应该做什么是我想阐述的。

当然我觉得随着未来模型能够被规模化的应用,覆盖更多的场景。posttrain 会是比较关键的,包括前段时间 deepseek 的出现,也体现出了 RLHF 的重要性,包括采用什么策略进行 RLHF (是 REFL 还是 DPO ,还是 deepseek 提出的 GRPO ),怎么进行好的 SFT 或者 RLHF ,都和更加高质量的数据相关,或者说针对未来要进行垂类的精调,是要有更好的垂类行业数据,这样可以提升模型对垂类行业的理解和模型结果的准确率。而对比 pretrain ,可能会趋于收敛,受限于它本身的训练成本很大,对比 posttrain ,pretrain 更多的是让模型具备更大的上线去提供后续模型能力的无限可能。所以如果未来能够提供更加低成本和更加高效的 posttrain 基建,加上可以快速收集整理垂类行的高质量数据,可以加速模型在各行业的高质量落地。
@NoOneNoBody 赞同,因为思考本身没有标准答案,这个就不太好定义,不管现在各类评测维度怎么评,其实都无法定义一个模型绝对的好坏,所以可能这本身就是一个不断演进的一个问题,就像不断去开发一个大脑
@wyntalgeer 我觉得真的到这个时候,单纯从技术角度看,已经发展到了足够成熟,能够达到人类对 AI 的预期。这个时候,我推测,是需要一些政治手段干预的,而不是单纯的只靠技术趋势去发展,因为技术本身不具备人性,他在这个社会更多的还是工具,怎么用好,是需要配合政治手段进行约束的。这是我的猜测,仅供参考
@NoOneNoBody 单纯从模型能力将肯定还没有达到 AGI 这种要求,但是当前看到的大模型能力看,是可以逐渐看到对实际生活场景带来的变化趋势,而且有可以被大规模应用的场景,确实有一些场景还存在一些边界问题,这些问题也是大模型自身能力迭代演进需要去逐步解决的。比如大模型给到的答案,我们没办法完全信任,更多的是参考,但是这个至少减少了人工过程思考推理过程,让人对事情更加专注在重点上
@littlejohnny 你应该理解错误意思,这两个观点是 16 年到 ChatGPT 发布之前不具备这两个条件,而 ChatGPT 发布之后,这两个条件都有满足,所以才有现在大家感觉到大模型的时代快速发展起来
过来人的经验,不要让双方父母住一起,还有一条,尽量避免婆媳长期住在一起
130 天前
回复了 stark123 创建的主题 生活 有用写日记的方式释压的中年男性吗?
这两年确实体会到了写日记可以缓解内心的焦虑,让内心能够恢复平静
133 天前
回复了 jugglllljugg 创建的主题 北京 北京-霍营这块的房子能上车吗
上个月出差在北京呆了一个周末,周末没事就去找个地方看电影,两件事情让我对北京有了新的认知
1 、看完电影,到中午了,想找个地方随便解决一下午饭,我一路走了 3 公里才找到一个吃饭的地方,这还是在海淀。这事情放在南方哪个城市都不可能发生,因为电影院基本就是在商场,出门就是各种餐饮(另外北京的电影院的硬件确实很陈旧)
2 、我沿着西土城路走,尽然看到了一个光秃秃的小土坡,没有一点绿化,这个在一线城市的核心区域应该很难看到这么大面基的小土坡,至少怎么也得种点四季绿的植物

通过上面我能够感受到,北京生活的便利性确实和大部分一线城市不太一样,另外就是环境层面,也是相差比较大,就我一个南方人的角度看,我是无法在北京长期居住的
140 天前
回复了 chobits336 创建的主题 成都 成都节假日和周末可以约女生去哪里玩
可以去春熙路做手工
看上去这个部门恨厉害的样子
2021-07-22 21:35:18 +08:00
回复了 Aidenboss 创建的主题 Java 轻量级 Java 应用消息通知中心
@Aidenboss 看来研究的开源项目不少,来不来我们这边搞事情?我们这边是搞基础架构的
2021-07-22 17:42:24 +08:00
回复了 Aidenboss 创建的主题 Java 轻量级 Java 应用消息通知中心
@Aidenboss 那你是如何解决消息消费者消费到一半,宕机或者重新部署,消息不丢失的?如果你不记录消息消费位置的?
2021-07-22 13:23:12 +08:00
回复了 Aidenboss 创建的主题 Java 轻量级 Java 应用消息通知中心
@Aidenboss 是否通过真实的大规模场景验证你的这个方案?如果没有,如何验证你的方案是真的可行?
第一:首先采用 redis 方案,看似把最难解决的消息存储交给 redis 已有解决方案来去解决。但是在真实大规模场景下,这会导致网络开销增加了一倍,因为多了一次 center 和 redis 的 request/response 。这种网络开销在亿级别的消息体量下,会严重影响性能
第二:整个集群管理你如何保障?如何让全局感知整个 topic 分片的负载策略?以及当出现网络异常(你的 stop 命令都无法发出的时候)如何保障集群的一致性?以及消息的消费顺序如何保障,如何记录消息消费到了哪里?以及当消费端重启的时候,如何找到之前的消费位置?

只能说你在逐步完善一个消息消费的最基本能力(消息通信),但是对于一个简单的 MQ 场景来说,这只是最简单的部分
1  2  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3018 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 00:28 · PVG 08:28 · LAX 17:28 · JFK 20:28
Developed with CodeLauncher
♥ Do have faith in what you're doing.