坐标欧陆,最近找了个任务为网站爬虫的美国小公司在本地的分公司的线上实习,我注意到很多要爬取的网站都在服务条款里明确声明了禁止通过爬虫等自动化方式获取网站数据,且这些网站都没有提供 API ,我在 WhatsApp 里问了雇主是否已经获得了网站相关人员的许可,回复说是,我保留这样的截图,这样就足够了吗?我无法确定是否真的有合法的许可,我要怎样才能避免自己受到可能的法律纠纷、承担可能的连带责任呢?我是否要向雇主请求更多的文件?我要请求什么文件?已经问了 ChatGPT 了,但是担心可能有的回复是幻觉,所以想在这里再问一次
1
PerFectTime 3 天前
爬虫都是面向监狱编程,除非他能给你有法律效力的授权文件,不然还是算了吧
|
2
Int100 3 天前 via iPhone
@PerFectTime 真抓?
|
3
PerFectTime 3 天前
@Int100 #2 也不存在真不真,但万一运气不好轮到你了,那百分百是真的
|
4
131 3 天前 via Android
这叫实习吗?这难道不是花点小钱找个背锅的吗?
真这样做,做完了敢把这段经历往简历里写吗? |
5
mxT52CRuqR6o5 3 天前 via Android
如果只是需要一次性地爬网站的数据而不是开发一个爬网站的服务,可以选择手工爬
|
7
Fffys OP @mxT52CRuqR6o5 手工爬是指什么?目前还在确认任务阶段,我还没问是爬数据还是开发服务,不过丢了很多网站过来,应该只是数据吧
另外,其中有个网站是互联网档案馆,这个怎么处理?查了下好像这个网站本身就面临多个版权纠纷案 |
8
hrdom 3 天前
我知道互联网档案馆,没啥特殊的吧,就正常爬就行。
|
9
Fffys OP @hrdom 担心版权问题啊,这个网站本身就面临多个版权纠纷,而且欧美都普遍注重版权的,有的网站在不同资源上有注明不同类型的 CC 协议,爬取时就只需要按照 CC 协议过滤就可以只爬取合法商业化的资源,但是这个网站对版权的处理就比较模糊
|
10
NoOneNoBody 3 天前 1
是你去爬,还是写代码交给对方爬?
前者直接拒绝 后者把所有代码都写成没有针对的那个网站的,就是扔 url 参数才能运行,由爬取的人输入 你的代码里面不能有任何被爬网站的标识 |
11
Fffys OP @NoOneNoBody 前者……不过也有不少是 free use 的网站,有的是明确写出是公共领域的数据,有的网站也没有 terms of use 就只有免责声明,也没有对爬虫进行限制,现在我是在想,是不是有一种合法爬取的方法?比如只爬公用领域、free use 的数据,或者和网站联系获得合法授权之类的?
后者的话,因为网站有很多,不太方便写成一个统一的方法,很多需要解析 HTML 从标签里获取数据,不过你的意思是,只要我最终交付的代码不包括具体的网站名我就可以法律上完全免责吗?但是我也需要提供示例输出文件啊,然后里面肯定有字段指向爬取的网站…… |
12
Fffys OP 因为没有认识的相关律师,打算在 quora reddit 上也发帖问问,那些在个人 bio 里写了是律师的人的回复可以全信吗?主要是我对欧美这边相关法律也不了解……
|
13
Fffys OP 跟进,我进一步询问后同意只抓取有 API 或者写了 free use 的网站,并且告诉我不会有商业用途,但是其中有的 API 网站写明了如果要用于商业用途需要联系网站管理员,我要怎么确定的确不会有商业用途呢?只爬取这两种是否就是安全的了?
|
14
lxh1983 2 天前 via iPhone
可以直接举报啊
|
15
zzNaLOGIC 2 天前 via iPhone 1
我在公司也搞爬虫
我的要求是这样的: 我不接受任何来自个人、领导、上下游的爬虫要求,有仅仅有数据风控部门给我发邮件正式下达任务我才执行,并且向订单风控部门提交申请必须有“网站数据抓取授权书”,由客户写授权书并盖上公章,风控审核通过后、才能给我发邮件下达执行任务。 当然了,嘴上别那么死板。什么完善公司流程,避免公司因法律风险造成损失,我有一个朋友。。。之类的,多扣帽子,多讲讲办公室政治正确的话,别跟个愣头青一样去对着刚。 |
16
wbrobot 2 天前 5
我给你说个简单的解决办法:
拿出工资的一半,把爬虫编码和运行工作,外包给我们这些肉身中国的朋友。把需求一扔,你直接得到数据就行了。 |
19
mxT52CRuqR6o5 2 天前
@Fffys #7 当自己不会写代码,完全手动打开网页复制粘贴
|