实习生接到爬虫任务怎样才能让自己避免牵扯到可能的法律纠纷里？

This topic created in 550 days ago, the information mentioned may be changed or developed.

坐标欧陆，最近找了个任务为网站爬虫的美国小公司在本地的分公司的线上实习，我注意到很多要爬取的网站都在服务条款里明确声明了禁止通过爬虫等自动化方式获取网站数据，且这些网站都没有提供 API ，我在 WhatsApp 里问了雇主是否已经获得了网站相关人员的许可，回复说是，我保留这样的截图，这样就足够了吗？我无法确定是否真的有合法的许可，我要怎样才能避免自己受到可能的法律纠纷、承担可能的连带责任呢？我是否要向雇主请求更多的文件？我要请求什么文件？已经问了 ChatGPT 了，但是担心可能有的回复是幻觉，所以想在这里再问一次

Supplement 1 · Nov 29, 2024

原来还可以附言，目前进度，沟通后允许只爬 free use 和提供 API 的网站了，这样应该就没问题了吧？

法律纠纷

许可

文件

23 replies • 2025-02-25 23:22:01 +08:00

PerFectTime

Nov 28, 2024

爬虫都是面向监狱编程，除非他能给你有法律效力的授权文件，不然还是算了吧

Int100

Nov 29, 2024 via iPhone

@PerFectTime 真抓？

PerFectTime

Nov 29, 2024

@Int100 #2 也不存在真不真，但万一运气不好轮到你了，那百分百是真的

131

Nov 29, 2024 via Android

这叫实习吗？这难道不是花点小钱找个背锅的吗？
真这样做，做完了敢把这段经历往简历里写吗？

mxT52CRuqR6o5

Nov 29, 2024 via Android

如果只是需要一次性地爬网站的数据而不是开发一个爬网站的服务，可以选择手工爬

Fffys

Nov 29, 2024

@131 那这样，我要求提供有法律效力的授权文件，如果提供了就做，没提供就拒绝

Fffys

Nov 29, 2024

@mxT52CRuqR6o5 手工爬是指什么？目前还在确认任务阶段，我还没问是爬数据还是开发服务，不过丢了很多网站过来，应该只是数据吧

另外，其中有个网站是互联网档案馆，这个怎么处理？查了下好像这个网站本身就面临多个版权纠纷案

hrdom

Nov 29, 2024

我知道互联网档案馆，没啥特殊的吧，就正常爬就行。

Fffys

Nov 29, 2024

@hrdom 担心版权问题啊，这个网站本身就面临多个版权纠纷，而且欧美都普遍注重版权的，有的网站在不同资源上有注明不同类型的 CC 协议，爬取时就只需要按照 CC 协议过滤就可以只爬取合法商业化的资源，但是这个网站对版权的处理就比较模糊

NoOneNoBody

Nov 29, 2024

是你去爬，还是写代码交给对方爬？
前者直接拒绝
后者把所有代码都写成没有针对的那个网站的，就是扔 url 参数才能运行，由爬取的人输入
你的代码里面不能有任何被爬网站的标识

Fffys

Nov 29, 2024

@NoOneNoBody 前者……不过也有不少是 free use 的网站，有的是明确写出是公共领域的数据，有的网站也没有 terms of use 就只有免责声明，也没有对爬虫进行限制，现在我是在想，是不是有一种合法爬取的方法？比如只爬公用领域、free use 的数据，或者和网站联系获得合法授权之类的？
后者的话，因为网站有很多，不太方便写成一个统一的方法，很多需要解析 HTML 从标签里获取数据，不过你的意思是，只要我最终交付的代码不包括具体的网站名我就可以法律上完全免责吗？但是我也需要提供示例输出文件啊，然后里面肯定有字段指向爬取的网站……

Fffys

Nov 29, 2024

因为没有认识的相关律师，打算在 quora reddit 上也发帖问问，那些在个人 bio 里写了是律师的人的回复可以全信吗？主要是我对欧美这边相关法律也不了解……

Fffys

Nov 29, 2024

跟进，我进一步询问后同意只抓取有 API 或者写了 free use 的网站，并且告诉我不会有商业用途，但是其中有的 API 网站写明了如果要用于商业用途需要联系网站管理员，我要怎么确定的确不会有商业用途呢？只爬取这两种是否就是安全的了？

Od37v61n5s89gXx8

Nov 29, 2024 via iPhone

可以直接举报啊

zzNaLOGIC

Nov 29, 2024 via iPhone

我在公司也搞爬虫
我的要求是这样的：
我不接受任何来自个人、领导、上下游的爬虫要求，有仅仅有数据风控部门给我发邮件正式下达任务我才执行，并且向订单风控部门提交申请必须有“网站数据抓取授权书”，由客户写授权书并盖上公章，风控审核通过后、才能给我发邮件下达执行任务。

当然了，嘴上别那么死板。什么完善公司流程，避免公司因法律风险造成损失，我有一个朋友。。。之类的，多扣帽子，多讲讲办公室政治正确的话，别跟个愣头青一样去对着刚。

wbrobot

Nov 29, 2024

我给你说个简单的解决办法：
拿出工资的一半，把爬虫编码和运行工作，外包给我们这些肉身中国的朋友。把需求一扔，你直接得到数据就行了。

Marain

Nov 29, 2024

@wbrobot 赛博殖民地

DengSven

Nov 29, 2024

@wbrobot 对头，将法律风险转嫁，无劳动得到一半的工资，给国内兄弟喝口汤，一箭三雕

mxT52CRuqR6o5

Nov 29, 2024

@Fffys #7 当自己不会写代码，完全手动打开网页复制粘贴

Fffys

Nov 29, 2024

@wbrobot 你这有点不太厚道。。。而且我这是无薪的课程实习。。。

Fffys

Nov 29, 2024

@zzNaLOGIC 现在改为只爬取 free use 和提供 API 的网站了，并且说不会有商业用途，这样是不是就没问题了？只要我注重有的网站有关 API 的限制之类的？恩？不过？这样好像什么也学不到啊？这种事把 API 文档丢给 ChatGPT 都能完成，是不是换个实习更好？

Fffys

Feb 25, 2025

后续，关于这个任务那之后只是让我做调查没让我爬，但是昨天又让我爬了，并且同意只爬取公共领域的书籍。
但是坐标欧陆，欧洲的公共领域的定义和美国不同而网站几乎全是美国网站，这一点我已经跟老板说了，老板回复手不用我担心法律责任公司会负责。
让老板在邮件里正式声明或者提供 formal document ，老板让我“describe the approach”，根据上下文我不是很确定是要我提供我爬取的 approach 还是相关文档

如果是我的方法：
- 老板有提供一个书籍列表，希望我找到尽可能多的书单上的书籍：
1. 通过古登堡计划的官网的指示用 rsync 或其他方法下载整个网站的存档并存到公司内部电脑
2. 通过 API 在以下网站上查找不在古登堡里的书籍，检查相关书籍的版权状态，如果是公共领域，检查是否有资源，如果网站提供指向资源的链接，就获取资源；如果指向外部网站的链接，就记录网站名称和相关链接
- internet archive
- hathitrust
- wikidata
- openlibrary
- ...
你们认为这样可以吗？
如果是要求 formal document ，我要要求提供怎样的文件呢？

Fffys

Feb 25, 2025

@PerFectTime #1 应该提供怎样的文件呢？老板让我说明，我不是很懂怎样的文件才算有法律效应