V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 36 页 / 共 174 页
回复总数  3479
1 ... 32  33  34  35  36  37  38  39  40  41 ... 174  
91 天前
回复了 sg8011 创建的主题 程序员 我这种需求应该去学什么
给你个最简单的方案:
1. 先让 chatgpt 写个 python flask ,接收油猴提交过来的数据,就几行 python 而已
如果后续计算简单,可以让 flask import 计算模块直接计算,储存结果,然后返回给油猴
如果计算复杂耗时,几分钟完成不了,就直接存接收的数据,离线另外计算
2.油猴,让 chatgpt 写,你需要做的就是用浏览器找到数据所在元素,开发者工具 copy css selector 并告诉 gpt 提取这个
如果需要自动翻页,也是知道多个页面的地址,让 gpt 写自动跳到下一页
脚本获取后提交给前面说的 flask ,看情况是否需要获取返回,离线计算的话,alert 知道存了就行了

把整个需求组织一下,跟 chatgpt 说清楚,自己改改基本就可以了,全部本地操作,不用学太多东西
既然都说的二进制,总应该知道 6 个 bit 就是 64 吧? 62 不能完整表示 6 个 bit 啊,36 表示 5 个 bit 又浪费了几个字符
这些编码本来就早于 url 诞生的,你应该问的是为什么 url 标准不考虑兼容 base64

base64 的重要思想是将 bytes 以可视、非控制字符表示,是 bytes 类型转无控制字符的 string 类型的最简单实现,压根就和 url 没什么关系
上周用油猴自动爬了 2w+页面,用无头总是被 cloudfare 拦截,懒得研究 cookies ,干脆开油猴上,反正也不多
如果说的是 APP 登录的话,我从来没登录过,根本就没装过
你下载用的是官方 client 么?看看帐号有没有搞错,是不是有两个号
92 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 #7
肯定是逐个 case 处理
我的意思是 sql 做这个是挺难的,不如 pandas 当成字串用正则,可以用向量或者 numba/c++处理
至于那些逻辑不对的,只能先转 8 位,并打 tag“日期异常”交给下家判断,清洗人员只做基础逻辑判断,数据实际意义也做判断就是“僭越”了

那些异常数据其实可以猜测,就是原始记录是有入库时间的,可以通过入库时间计算,只是人家本来就没有日期查询和展示的需求,可能只有月日或者年龄的需求,所以入库时就顺便变了形式,汇总(采集)时不会去拿那个入库时间,自然格式就不对了
92 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 #5
刚遇到一个,你看看, 数据目标意义为日期
年月日
日月年
月日年
6 位数
7 位数
8 位数
4 位数:只有年、或只有月日
2 位数:年龄
23.3.24 或 11.12.13 (搞不清年月日分别是哪个)
……
以上情况混杂都有
93 天前
回复了 huyiwei 创建的主题 问与答 注销卸载了,这辈子不再信网盘。。。
人生问题:
从几岁开始不再尽信父母?
从几岁开始不再尽信老师?
从几岁开始不再尽信课本?
从几岁开始不再尽信文章?
……
从哪年开始不再信老板?
从哪年开始不再信广告?
从哪年开始不再信媒体?
……
从哪年开始不再信朋友?
从哪年开始不再信共和党、民主党?
……
从哪年开始不再信子女?
从哪年开始不再信伴侣?

都没有,你的世界才是真的真美好啊
95 天前
回复了 guoguobaba 创建的主题 Python 郁闷,折腾了一周的爬虫
最近在重拾前端做自动化,一些网页或网站打开就自动提取信息
不过倒不是爬大量页面,就是打开哪个是哪个,减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行,单机单 ip 遇到 5 秒反爬确实搞不了,我以前都是爬外站多,没什么线下问题,最多把我“升级”称为“中国黑客”,笑
qpushbutton clicked 发送一个 checked 的 bool 信号,默认 false ,button 可以 setcheckable
qthread start 参数是 0~7 的 int 信号,默认 7 ,QThread::Priority
看看是不是这个原因,我也不了解 QT C++,只写过 pyqt
先申请西瓜成熟度的国标吧,不然法院也审不了判别对错的纠纷
没有这样的库,还是那个原因:页面 js 不能操作本地文件
js 读不到浏览器缓存,所以,js 要转图片为 base64 ,需要重新请求一遍,通过 canvas 转 base64
而且还有前置工作是 parse 整个页面,还有非图片的二进制文件如字体,我还想不到怎么做,还有跨域问题,归结一句就是个单页面爬虫了,不如发给其他工具完成
但扩展是有权限读取缓存的,所以就容易很多了

这复杂程度,个人觉得页面 js 不能完成,起码要扩展或者发送给外部完成
没有自动熄屏么?
1 ... 32  33  34  35  36  37  38  39  40  41 ... 174  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2679 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 44ms · UTC 00:17 · PVG 08:17 · LAX 16:17 · JFK 19:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.