V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  milu05163614  ›  全部回复第 2 页 / 共 2 页
回复总数  26
1  2  
2017-01-12 13:21:11 +08:00
回复了 milu05163614 创建的主题 分享创造 DXC 采集,一个跨平台的数据采集软件
@zqjilove 如果程序判断出来数据格式是 json ,会自己转换的。你说说你采集哪里有问题,我测试一下就知道了。
2017-01-12 12:34:24 +08:00
回复了 milu05163614 创建的主题 分享创造 DXC 采集,一个跨平台的数据采集软件
@zqjilove 自己参考一下这个规则。 http://ww1.dxcer.com/iOS%E5%BC%80%E5%8F%91-%E5%8A%BC%E5%93%A5stone-%E6%8E%98%E9%87%91.dxc

字符串方式去获取。下次演示规则里面放一个演示一下。
2017-01-12 12:29:05 +08:00
回复了 milu05163614 创建的主题 分享创造 DXC 采集,一个跨平台的数据采集软件
@zqjilove 我举个例子吧。

稀土掘金博客的采集。这个页面: https://gold.xitu.io/user/576353b9207703006b9a557d

源码里面是没有 [最新文章] 的数据的,这个是 ajax 请求。像你说的, json 数据加载。但是软件是可以采集这种数据的。
2017-01-12 12:15:41 +08:00
回复了 milu05163614 创建的主题 分享创造 DXC 采集,一个跨平台的数据采集软件
@zqjilove 可以的,你要采集哪里,给我地址,我试试。
2017-01-12 11:38:07 +08:00
回复了 milu05163614 创建的主题 分享创造 DXC 采集,一个跨平台的数据采集软件
@siknet 目前可能对于通用性的采集的确够满足了。从用户反馈来看,几乎 95%以上的需求都可以满足。如果想要开发更加复杂的爬虫,可能以后开放一些二次开发的接口,基本写任何爬虫都没问题了。
2017-01-12 11:33:56 +08:00
回复了 milu05163614 创建的主题 分享创造 DXC 采集,一个跨平台的数据采集软件
@siknet 后续开发 linux 版本。放在服务器上面分布式采集才是王道。什么代理采集,这些肯定是标配。加入分布式采集,将任务分解出去,可以我们服务器后台帮你消化这些任务,也可以你自己搭建集群服务器去干活。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4417 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 10:08 · PVG 18:08 · LAX 02:08 · JFK 05:08
Developed with CodeLauncher
♥ Do have faith in what you're doing.