V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 94 页 / 共 173 页
回复总数  3456
1 ... 90  91  92  93  94  95  96  97  98  99 ... 173  
2023-11-20 20:45:53 +08:00
回复了 suqiuluck 创建的主题 程序员 有没有自己电脑上跑大模型的大佬啊
站内有人发过用自己的聊天记录训练的(年初的帖子,全文在其 blog ),你可以参考一下
要玩训练模型我是耗不起,基本看前几段就劝退我了,还是继续玩我的小模型好了
2023-11-20 12:57:03 +08:00
回复了 JinTianYi456 创建的主题 问与答 有本地版以图搜图软件?
一些相册软件应该有类似附带功能,把 a 放进该软件的相册管理,或者可以
单独的软件应该没有,这个一般需要部署一个数据库,单独搜图需求极小

python 脚本则遍地皆是,搜 similar image 就能找到了,然后自己加个遍历文件的循环就是了
这个印象中是国外的故事?
2023-11-19 16:32:36 +08:00
回复了 vfx666 创建的主题 OpenAI 香港节点能不能访问 gpt 啊
不一定要美国,坡、日、韩、东南亚部分、欧洲大部分都可以
主要是好几个作为辅助的域名(认证和 cdn )都要以相同 ip 访问,此节点前几天有一帖有写,你找找
2023-11-19 00:07:29 +08:00
回复了 ttthys 创建的主题 宽带症候群 申请了电信的动态公网 ip,怎样部署自己的服务到外网
@helee9199 #5
你和 ISP 签的协议里面不允许 web 或者作为公众服务,然后政策也规定所有 web 等公众服务需要备案,两者加成
虽然 NAS 外放是自用,但当你无法证明为“自用”,他们会按有罪推论视为公众服务,可以直接关停
2023-11-18 23:54:53 +08:00
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
@FlyingBackscratc #6
呃,看错了,你不是 OP ?
2023-11-18 23:54:03 +08:00
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
@FlyingBackscratc #6
说了半天原来是我理解错了,你说的“预训练”就是训练,我以为是说预训练模型,后者是说现在已经公布的一些模型,如 128 点人脸检测模型、5 点人脸检测模型、车辆辨别模型……诸如此类

回答你最后一句吧,数学算法一样的话,训练参数是类似的
我有做三个模型,都是用 KNN ,一个人脸、一个文字,一个销售,它们后面的步骤,从训练到测试代码是基本相同的,包括参数
不同的是输入的样本数据,一个用人脸检测模块从图像提取人脸特征,一个用分词提取特征、一个用统计数据量化,都转为二维 numpy (这步是归一),扔进相同的训练代码和检测代码,就能分出结果,KNN 只是个数学算法,它并不理会数据的实际“意义”(人脸、NLP 、医学还是销售……),它只管哪个数据对应哪个标签,维度相同就行,其他数学算法也类似,只要是合理的数目就行

只用数字算结果为数学模型,把其中的数字附上实际意义则为业务模型,业务模型千变万化,但基础数学模型并没有很多,感觉上很多只是衍生和组合,例如所有的距离算法思想是一样的,就是求两个点的空间距离,不同的只是求这个距离的公式,有欧氏距离、余弦距离……等等
2023-11-18 21:35:03 +08:00
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
@Richard14 #4
我举个自己的例子吧,虽然跟人家没法比,但过程是可以说一说的
我用 KNN 做一个小小小小模型,数据少于 1w ,tag 只有两个:True/False ,可以说极其简单了
这个模型基本各种参数都选定了,不用调,唯一要调整的近邻 n 的个数,可选为 4~15 ,共 12 个
然后将数据随机方式分 20 组,每组有训练样本和测试样本
将每组和 12 个可选参数,用训练样本各训练一次,然后用测试样本测试,这样共 240 次测试
最终选定 n=8 ,因为 n=8 时所有测试结果都落在 96.5~98%之间,是最稳定的
其实 96~98%并非最好的,当 n=12 时,有三组得出了 99%以上的,但是 n=12 的其他 17 组,最低还出现 88%,分布很乱;所以 n=12 是不能用的,因为用到真正产出时,结果的准确性无法预计

我想说的是,光一个仅 12 可选项的参数的调参工作,工作量就达到 240 组,多个参数可想而知,这里 KNN 的训练只是纯粹打包,几分钟而已,而有些模型的一次训练就要几小时甚至几天(视乎算力)
当然,可以只用一组作为调参测试就选定参数(只跑 12 次),但实用时的结果嘛……可能要骂娘了

然后,上述还忽略了一个重要问题:采样数据是否合理,如果不合理,前面说的所有的工作都是白搭
因为我个人能力有限,只能获得这小一万的数据,更多我就要花钱雇人帮我收集了,还不是雇一个人就能搞定的
所以我手头的这一万数据,是否有代表性,分布是否合理,这里还有采样学的分析(上面只是默认为合理)
例如我要做一个买菜意愿的模型,然后我从程序员采集了一万数据,但程序员买菜的极少,这样的数据做出的模型用在评估家庭主妇,那就是错漏百出、惨不忍睹,大概就是这个意思
例如现在的公开人脸提取模型,用于欧洲人比亚洲人更精准,就是因为采集做模型的数据欧洲人占多这个原因

你如果看过我写的其他帖子(回复帖),我说过,AI 是一个长久的工作,需要几代人努力,包括机器学习和深度学习,目前还没有一个算法能通吃不同领域的,所以做模型时还有选数学算法(或者组合算法)的步骤
目前文献还是说基础算法的实现,至于用到实处,因为不同的数学算法在不同领域表现不同,就需要做业务模型的人自己来选择并测试了,文献换个角度看就是说某个算法能把模型做出来,但结果不能打包票
例如我上面这个例子,用 CNN 或者其他也能做,只是我嫌麻烦(部分是不熟悉),所以没有用其他算法测试,说到底就是懒,96%的结果我可以接受,如果只有 70%,我可能就要硬着头皮换其他了,那样的话又是新一轮工作量了
2023-11-18 18:08:15 +08:00
回复了 huangya 创建的主题 Windows windows 系统如何对整个硬盘进行克隆
@ntedshen #16
是,多年前被微软收购的
“时间不够用啊,老大你是怎么腾出时间的?不用陪老婆孩子么?”
2023-11-18 16:28:51 +08:00
回复了 huangya 创建的主题 Windows windows 系统如何对整个硬盘进行克隆
看附言的话,这是全盘同步啊
如果内容经常变动,还要实时的话,估计没有
2023-11-18 16:01:20 +08:00
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
网上有些从零开始训练自己模型的文章,当然写得比较简单(包括例子和步骤),但基本就是这样
就是数据、打 tag 、调参训练

现在一些公开的预训练模型是非常复杂的,关键是调参,一来参数比上述的例子多得多,二来步骤也是反反复复,不是一次训练就完成的,每一次调参都要重新训练并对比结果,然后逐步收敛参数的范围,直到连续多次的训练测试结果接近才能视为完成,如果遇到结果不理想(无法突破预想效率值),甚至要推倒重来

为什么这些模型都是一些机构发布,而不是个人,就是因为个人搜集数据能力有限,算力有限,做这些复杂训练少点硬件投资都没什么用,例如 openai 早期的模型租用了多少算力?所花的钱哪怕给我一成,我都可以完全躺平过完剩下的日子了
如果你想看一些预训练模型是怎么得出来的,要去技术杂志搜,前提是他们有公开,例如之前超导那事,别人可以用公开的数据进行实验或验证
2023-11-18 15:19:02 +08:00
回复了 ZeawinL 创建的主题 生活 你是如何看待家庭个体之间资源不平等的?
如何看待就是“不看待”
这事没法改变,因为无论怎么努力,只能改变自己和自己家庭的资源,而不是“资源不平等”这件事,实际上,当自己努力时,对其他人来说,自己也是资源不平等的制造者之一

只有人<<<<<资源,例如空气,又或者原始社会人口极少时,才会显得“平等”
这个事没必要想,想得越多,越容易进入牛角尖,既然不平等必然存在,无论向哪个方向想,都是某个相对立场而已
建设伟大的共产主义吧,那时就人人平等了,老子没有后代,就不研究这个方向了
2023-11-18 13:45:23 +08:00
回复了 pauluswanggang 创建的主题 Google 为什么我的谷歌账户有这个提醒?
这是在哪里显示的?从没见过这个界面
2023-11-18 13:26:45 +08:00
回复了 kongkongye 创建的主题 OpenAI 做个什么样的 AI 应用的思考
@customer #10
首先,国内应该很少人会为一个聊天场景付费,试想一下 apple 把 siri ,小米把小爱单独抽出来收费会如何
我很好奇“文心一言”付费用户是否只有技术人员和法人
其次,我指的是“泛生活问题”,不是就一个京东比价就想收费

看怎么把这个 AI 融入可收费的项目中,并计入成本,如小爱
运营的思维要拓宽一些
@bsmasnorea #9
哈哈……
2023-11-17 16:25:31 +08:00
回复了 cpxjaz 创建的主题 问与答 有没有啥能私有化部署的相册同步软件?
这样的帖子看了无数个
灵魂拷问:相册需要同步么?不是备份能搜就够了么?
2023-11-17 16:20:11 +08:00
回复了 kongkongye 创建的主题 OpenAI 做个什么样的 AI 应用的思考
技术人思路总是跳不出技术,你说的那些都是面向技术人员的
其实,技术最应该为普通人服务

我有个需求,你能做到么?
“AI ,请问京东自营 HC550 16T 今天有没有降价?”
@s609926202 #4
香港的 ip 不行,台湾没试过,坡、日、韩都可以,欧美就更没限制了
一直用,因为直到昨天都没 chatgpt 帐号(又手机又信用卡的嫌麻烦懒得搞)
就算 so 看到完整的例子我都会改改跑一遍测试的,所以不太在乎能否直接使用,能提醒就够了
只是有些问题在搜索引擎较难用 keyword 搜到,需要描述一下
1 ... 90  91  92  93  94  95  96  97  98  99 ... 173  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1332 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 17:43 · PVG 01:43 · LAX 09:43 · JFK 12:43
Developed with CodeLauncher
♥ Do have faith in what you're doing.