如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。
                                                                        热切期待新需求,和反馈问题的造数团队:
                                                                          [email protected]
                                                                          www.zaoshu.io
|  |      1GrahamCloud OP 会推出一些 side project 方便需求,如果想试用也可以联系我。 | 
|      2crayonyi      2016-11-09 18:21:44 +08:00  2 对标的是这个网站吗? [https://www.import.io/]( https://www.import.io/) | 
|  |      3GrahamCloud OP @crayonyi 目标不一样,我们期待第一阶段做他们的功能,接下来做一些有意思的扩展。 | 
|  |      4wjm2038      2016-11-09 21:56:39 +08:00 via Android  1 不错 | 
|  |      5GrahamCloud OP @wjm2038 有什么问题,或者有什么想法一定要告诉我。 | 
|      6mingyun      2016-11-09 23:34:26 +08:00  1 赞一个 | 
|      7sssdjiui      2016-11-10 01:35:20 +08:00  2 | 
|  |      9strwei      2016-11-10 01:51:13 +08:00 不错哦 | 
|  |      10binux      2016-11-10 01:57:52 +08:00  1 上次就说过的,数据行都没有对其,图片价格张冠李戴,这怎么用啊。 给个例子: http://www.ikea.com/gb/en/search/?k=chair | 
|  |      11lhx2008      2016-11-10 08:38:36 +08:00 via Android  1 安卓手机下有严重的错位。。 | 
|  |      12GrahamCloud OP @lhx2008 现在刚开始做,手机适配还不行。 | 
|  |      13GrahamCloud OP @binux 这个问题下周会上一个新版解决。 谢谢上次提出来。这两周 bug 比较多。 | 
|      14crayonyi      2016-11-10 11:31:02 +08:00  1 @GrahamCloud 如果升级下,感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个, 目前只完成通用爬虫部分: https://github.com/yijingping/unicrawler | 
|  |      15Magic347      2016-11-10 13:40:43 +08:00  1 和 import.io 简单对比了一下,在页面异步加载数据的采集效果上还有待改进: 例如 https://item.taobao.com/item.htm?id=529572785771 淘宝商品详情页面的价格数据, 造数目前是没法采集到的,但是 import.io 是可以准确采集到的。 | 
|  |      16GrahamCloud OP @Magic347 说得对,现在对这类支持的还是不够。 | 
|      17chendajun      2016-11-10 14:33:53 +08:00  1 | 
|  |      18GrahamCloud OP @chendajun 目前只有勾选,没有提取正文。 | 
|  |      19GrahamCloud OP @chendajun 目前只有自动勾选,没有提取正文。 | 
|      20crayonyi      2016-11-10 23:11:02 +08:00  1 @GrahamCloud 现在支持翻页吗?我在平台商没有找到,另外 a 链接地址也没有识别出来 | 
|  |      21GrahamCloud OP @crayonyi 今天刚挂了,有的功能要以后上。 | 
|      22scnace      2016-11-11 00:20:08 +08:00 via Android  1 访问知乎的时候  CSS 和 JS 都没有加载出来 (知乎的 css 和 js 请求好像都需要 cookie.  我也不造为毛) | 
|  |      23lslqtz      2016-11-11 01:16:29 +08:00  1 我希望提供 json 的数据接口,而不要 excel 。 | 
|  |      24GrahamCloud OP | 
|  |      25GrahamCloud OP 现在大家所有的需求和发现的问题都会被感谢,也会被认真处理。 啧啧,谢谢大家。 | 
|  |      26GrahamCloud OP @crayonyi 现在翻页是可以的 | 
|  |      27wyntergreg      2016-11-11 09:10:52 +08:00  1 别的不说 你发在这里 几天以后你会发现爬了一堆奇怪的东东 | 
|      28cmisaka      2016-11-11 09:50:00 +08:00  1 在爬淘宝的一个商品页面一直在转... | 
|  |      29panfake      2016-11-11 10:39:22 +08:00  1 一直 loading ,所以采集一个页面需要这么慢? | 
|  |      30GrahamCloud OP | 
|  |      31GrahamCloud OP @wyntergreg 现在爬的数据,确实很奇怪。 | 
|  |      32billyellow      2016-11-11 11:44:42 +08:00 赞~~~~ | 
|  |      33popoer      2016-11-11 15:05:57 +08:00  1 多爬几次会出验证码的网站怎么办呢? | 
|  |      34GrahamCloud OP 目前没有这个问题。非定时任务是直接爬取,定时任务不妨试试看。 | 
|  |      35frankmdong      2016-11-12 10:29:58 +08:00  1 爬取到的页面能生成 RSS 地址吗 | 
|  |      36asd103      2016-11-12 11:50:57 +08:00  1 出现 500 状态码 | 
|  |      37byuc      2016-11-12 14:44:14 +08:00  1 创建任务的时候没有问题,但是进入到账户页面进行爬取得时候就总是执行出错了。 | 
|  |      38GrahamCloud OP @byuc 爬取的页面是? | 
|  |      39GrahamCloud OP @tumbzzc 哪个阶段出现的 500 状态? | 
|  |      40asd103      2016-11-12 20:43:28 +08:00  1 @GrahamCloud 输入网址之后点“点击试试” | 
|  |      41byuc      2016-11-13 09:13:13 +08:00  1 @GrahamCloud 无论是什么页面,在创建完任务进行执行的时候都是提示执行出错,而删除数据的按钮也失效了。我测试过单单抓取百度首页的 LOGO ,也失效。 | 
|  |      42xssing      2016-11-13 15:09:05 +08:00  1 一直在分析页面中 | 
|  |      43mythhack      2016-11-13 15:38:57 +08:00 一直在分析页面中 | 
|  |      44kukuwhu      2016-11-13 16:11:39 +08:00  1 呵呵,上次进去随便输入一个 url 无限等待中,这次又进去输入一个简单的 url ,又是无限循环等待。。。 这都能放出来? | 
|  |      45GrahamCloud OP | 
|  |      46asd103      2016-11-14 11:20:06 +08:00  1 首页的那个“点击试试”还是 500 。 注册后提交网址一直是“造数正在为你分析页面” | 
|  |      47GrahamCloud OP @tumbzzc 因为硬盘满了,已经修复。 | 
|  |      48GrahamCloud OP 准备上新的 Ui 界面,欢迎批评和试用。 | 
|  |      49eminemcola      2016-11-15 00:19:54 +08:00  1 猴 | 
|  |      50yh7gdiaYW      2016-11-16 11:53:55 +08:00  1 字体闪瞎我了,首页也就算了,控制台能不能别用 Heiti SC Medium ? | 
|  |      51GrahamCloud OP @yh7gdiaYW 现在弄得确实不太好,首页在测试,估计明天马上要上新的了。字体也会更新,求意见求批评。 | 
|  |      52zijikai      2016-11-16 12:12:17 +08:00 via iPhone  1 手机上首页不匹配,不是自响应? | 
|  |      53GrahamCloud OP @zijikai 确实啊,现在只对网页端 URL 功能做了很多尝试。 手机端我们会在周五上一版 UI 。 | 
|  |      54wujunze      2016-11-16 13:37:51 +08:00  1 最近类似的云爬虫平台很多  我记得还有一个什么 神箭手来着 | 
|  |      55GrahamCloud OP @wujunze 好用不 | 
|  |      56est      2016-11-16 14:11:04 +08:00  1 还停留在  “分析页面” 这里。 | 
|  |      57GrahamCloud OP @est 我这里显示没问题,不知道我们是不是对浏览器适配没做好,求发浏览器和系统概况。 | 
|  |      58est      2016-11-16 14:31:03 +08:00  1 @GrahamCloud 又好了。你们可以上一个 mixpanel 了。 | 
|  |      59GrahamCloud OP @est 现在在完善分析用户行为的后台。 trace 的方法还不够好 | 
|  |      60alfer      2016-11-16 15:17:50 +08:00  1 抓了个淘宝页面玩玩,一直分析中。。。 | 
|  |      61GrahamCloud OP @alfer 准备周末推新 ui 在各种 测试,实在不好意思。 | 
|  |      62reticentfat      2016-11-17 09:46:30 +08:00  1 输入了一个贴吧地址怎么输出页面和输入差不多 | 
|  |      63GrahamCloud OP @reticentfat 输出页面是你点一下,就帮你自动识别、勾选同类数据。 | 
|      64honkew      2016-11-17 13:18:39 +08:00  1 | 
|  |      65GrahamCloud OP @honkew 目前这样的还不支持,在需求队列中。 | 
|  |      66zluyuer      2016-11-17 18:51:08 +08:00  1 似乎对 Ajax 加载支持不好。例: http://shop.m.jd.com/search/search?shopId=1000010404 | 
|  |      67GrahamCloud OP @zluyuer 可以期待一下我们这几天马上要出的新版。 | 
|  |      68incrediblink      2016-11-19 22:27:04 +08:00  1 为何我无法爬取到 http://news.163.com/16/1119/09/C67NPATB000187V5.html 上的正文,选中了正文那一个 div 之后爬出来的是一张迷之图片… 有的新闻网站有不同的历史版本,每个历史版本的界面不一样,爬起来就很麻烦。 | 
|  |      69jmp2x      2016-11-20 01:38:07 +08:00  1 注意下 File 协议的问题 容易造成任意文件读取 虽然在 Container 里 我们小伙伴友情测试了下 →_→ | 
|  |      70csx163      2016-11-20 23:27:47 +08:00  1 注册时出现邮件 TOKEN 非法 | 
|  |      71GrahamCloud OP @csx163 求告知细节。 | 
|  |      72GrahamCloud OP @incrediblink 正文我测试了两次还可以运行,求告知具体配置。 争取周一解决。 | 
|  |      73csx163      2016-11-21 11:02:16 +08:00 via Android  1 @GrahamCloud QQ 邮箱,注册时复制邮箱收到的链接到地址栏,打开地址填写资料到输入密码后出现该提示。我 QQ 邮箱为 cs-x 。 | 
|  |      74GrahamCloud OP @csx163 现在注册还有问题是么 | 
|  |      75GrahamCloud OP @jmp2x 感谢小伙伴,强烈感谢。 | 
|  |      76GrahamCloud OP | 
|  |      77brucedone      2016-11-21 17:18:47 +08:00  1 我目前想到的,对于”下一页“的解析不是那么的完善,可以考虑增加开发者模式,如果当前的选中单位不符合自己的预期的话,可以自己去编辑。总的来说,和 pyspider ,以及 portia 一样,都是很不错的东东,需要更加的打磨一下就是一个好产品了。 | 
|  |      78GrahamCloud OP @brucedone 目前可能确实有个开发者模式能更好的服务客户。 | 
|  |      79anexplore      2016-11-22 12:37:52 +08:00  1 | 
|      80crayonyi      2016-11-22 14:30:58 +08:00  1 新 UI 不错 | 
|  |      81GrahamCloud OP @crayonyi 马上还有更多新功能 | 
|  |      82cc55555      2016-12-23 14:36:18 +08:00  1 希望可以添加将图片或文章自动发送到邮箱, Post 到 G+、 Twitter 、 Tumblr 等。 | 
|  |      83GrahamCloud OP @cc55555 这三个估计短期内还上不了,图片在考虑 | 
|  |      84cc55555      2017-01-22 08:22:00 +08:00  1 | 
|  |      85cc55555      2017-01-22 13:23:29 +08:00  1 http://www.infosec-wiki.com/?p=308 看到了这篇文章,或许对于你有用处 | 
|  |      86GrahamCloud OP @cc55555 可以转发到邮箱, rss 和 dropbox 还暂时在排期开靠后的部分,求加团队微信: Zaoshuio | 
|  |      87Limius      2017-03-07 17:40:22 +08:00  1 @GrahamCloud https://www.howbuy.com/fundtool/filter.htm 这个网站的产品如何怕呢,发现翻页的话网址也没有变化。 | 
|  |      88GrahamCloud OP @Limius 好问题 | 
|  |      89figofuture      2017-03-13 09:54:22 +08:00 收藏了 | 
|  |      904BVL25L90W260T9U      2017-03-18 15:31:54 +08:00  1 感觉和 import.io 还有些差距,加油 | 
|  |      91GrahamCloud OP @ospider 感谢! | 
|  |      92ZernonHuang      2017-03-28 22:01:38 +08:00  1 您好,目前我们公司爬某东和某宝的数据,但是被封了 IP.不知道你们的服务会不会有这样风险?可否先试用一下. | 
|  |      93GrahamCloud OP @ZernonHuang  您是手机看了下吧, web 端免费试用,我们的反爬比较专业,使用后可以多提意见和需求。 | 
|  |      94yangxin0      2017-04-06 12:36:50 +08:00 噗。。。明明一个简单页面提取工具,这不叫爬虫啊 |