V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  brucedone  ›  全部回复第 11 页 / 共 11 页
回复总数  215
1 ... 2  3  4  5  6  7  8  9  10  11  
2016-09-18 10:36:49 +08:00
回复了 miaoxu9999 创建的主题 Python 想要自学爬虫
如果你想用 scrapy 呢,我写了很多教程:
(1)分布式下的爬虫 Scrapy 应该如何做-安装
(2)分布式下的爬虫 Scrapy 应该如何做-关于对 Scrapy 的反思和核心对象的介绍
(3)分布式下的爬虫 Scrapy 应该如何做-递归爬取方式,数据输出方式以及数据库链接
(4)分布式下的爬虫 Scrapy 应该如何做-规则自动爬取及命令行下传参
(5)分布式下的爬虫 Scrapy 应该如何做-关于爬虫的调度机制与调度架构的构想
(5.1)分布式下的爬虫 Scrapy 应该如何做-windows 下的 redis 的安装与配置
(6)分布式下的爬虫 Scrapy 应该如何做-关于实时 Debug 的那些事儿
(7)分布式下的爬虫 Scrapy 应该如何做-关于伪装和防 Ban 的那点事儿
(8)分布式下的爬虫 Scrapy 应该如何做-图片下载(源码放送)
(9)分布式下的爬虫 Scrapy 应该如何做-关于 ajax 抓取的处理(一)
(10)分布式下的爬虫 Scrapy 应该如何做-关于动态内容 js 或者 ajax 处理(2)
(11)分布式下的爬虫 Scrapy 应该如何做-关于 js 渲染环境 splash 的一些使用技巧总结
(12)分布式下的爬虫 Scrapy 应该如何做-分布式的浅析
(13)分布式下的爬虫 Scrapy 应该如何做-另一种分布式架构

http://brucedone.com/archives/771

我不建议新人一上手就学框架,你至少要弄懂基本的 html ,css,javascript, http 请求,正则或者 xpath,数据存储,语言基础。
2016-08-29 10:12:49 +08:00
回复了 Verydiao 创建的主题 Python 愣逼 OS X 安装 scrapy 成功记!
why not anaconda ?
2016-08-11 20:17:00 +08:00
回复了 SlipStupig 创建的主题 Python 最近研究 python 的一个小失落
@wizardforcel 我说的是 @YORYOR ,他说换了 python 之后从分钟级别的 shell script 到了小时级别的 python ,这个锅让 python 背,在没有看到具体数据之前,我是不服的。
2016-08-11 13:32:04 +08:00
回复了 SlipStupig 创建的主题 Python 最近研究 python 的一个小失落
》翻页吧 python 慢 这个是事实,为了运维方便 从把 shell 迁到了 python ,之前分钟级别的处理变成了小时级
@YORYOR

我不知道你说的慢是哪里慢,如果仅仅是因为换了语言就说 python 导致的慢,就好比你之前骑车上班,而现在坐在车里一边大骂怎么还不开车,怎么这么慢一样。
@Janny722 不过转 python 了,这些技能只为接私单准备:)
咦,好巧,这些我都会呦~
2016-06-27 12:47:33 +08:00
回复了 sensui7 创建的主题 Linux 打算干掉 W10, 彻底使用 linux, 请问安装之前我要备份好什么东西
mac 其实满好用的,轻度 qq,和一些常用的工具都可以用的到, office 更不说了,反正满不错的。
记得加上请求头,还有一些其它的参数都要填全
2016-06-15 12:54:08 +08:00
回复了 rapospectre 创建的主题 Python 用 Django 零成本快速实现 API 服务
why not flask ?
2016-06-14 11:40:10 +08:00
回复了 hippoboy 创建的主题 Python 求推荐几个爬取 js 生成的动态网页的教程?PhantomJS?其他?
http://brucedone.com/archives/560

你只是需要借助渲染的环境,你可以尝试 splash
如果让我天天和一群科技男在科技园挤的上气不接下气,我宁愿在面朝大海,写代码写的春暖花开~环境 100 分好评~
2016-06-08 18:43:49 +08:00
回复了 lazyboy 创建的主题 Python .py 文件如何转换成可执行文件呢,如 exe
我曾经考虑过直接使用 pyqt , qt4 ,qt5 , 的安装就已经折腾的半死,再就是环境, IDE 的配置,后来就直接转 node.js 的跨平台的 app 了, https://github.com/electron/electron ,你值得拥有
@Allianzcortex scrapy 的自由度还不高?基于插件形式你可以自由定制 proxy ,以及动态 js 解析(scrapy-splash),pipeline 可以自己定义输出形式,你觉得去重是一个难题,那自己定义 queue 的存储然后在重载 start_reqeust 方法就可以轻松的去重了,这些内容都可以自己做,其实已经耦合性不算太高了~
2016-06-06 12:49:47 +08:00
回复了 ifconfig 创建的主题 Python 这种情况下应该用 Python 哪个框架?
flask+ docker ,打包之后随时使用。
@practicer 用 python 做爬虫没有其它的大原因,写的顺手,社区成熟,活跃,出问题都可以找的到答案, python 的 scrapy 框架也非常成熟。
2016-06-06 12:41:48 +08:00
回复了 lovebeyondalways 创建的主题 Python 求助:被 python 的编码搞疯了
很多人刚开始学 py2 的时候,一定会被编码搞的很疯,但凡肯花点时间了解编码和解码原理的话,都可以很轻松走进 python 的大门
1 ... 2  3  4  5  6  7  8  9  10  11  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5543 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 02:09 · PVG 10:09 · LAX 18:09 · JFK 21:09
Developed with CodeLauncher
♥ Do have faith in what you're doing.