JAVA 爬虫 WebCollector 2.x 入门教程——基本概念

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3750 天前的主题，其中的信息可能已经有所发展或是发生改变。

摘要：
WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架（内核），它提供精简的的 API ，只需少量代码即可实现一个功能强大的爬虫。 WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本，支持分布式爬取。

10 条回复 • 2015-12-28 18:52:39 +08:00

ca1123

2015 年 12 月 25 日

你写的？

briefcopy

2015 年 12 月 25 日

@ca1123 是的

SparkMan

2015 年 12 月 25 日

爬虫的关键（或者难点）是如何不被封 IP ，至于怎么抓取页面 httpclient 跟其他组件都差不多

lx19930805

2015 年 12 月 25 日

@SparkMan 恩恩.然后呢?如何不被封 IP?
被封 IP 是因为多次大量的访问某个域名的网址吧,刚接触是这么理解的

geekboy

2015 年 12 月 25 日

最近研究的是爬虫的增量更新问题~用的 webmagic 框架！

briefcopy

2015 年 12 月 25 日

@SparkMan 爬虫的关键，是爬取允许爬取的数据，有效利用。比如搜索引擎还是要遵守 robots.txt 的。反爬就是网站不想让你爬，用随机高匿代理之类的解决反爬技术很成熟，但是有点抢劫的性质。

sefemp

2015 年 12 月 26 日

@geekboy 是说诸如论坛数据之类的么

zonghua

2015 年 12 月 26 日

@SparkMan 关键不是分析数据？

ooTwToo

2015 年 12 月 28 日

头像有点像汪峰。

briefcopy

2015 年 12 月 28 日

@ooTwToo 这明明是斯诺登。。。。