V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  pubby  ›  全部回复第 73 页 / 共 87 页
回复总数  1733
1 ... 69  70  71  72  73  74  75  76  77  78 ... 87  
2014-02-26 21:38:50 +08:00
回复了 mantianyu 创建的主题 程序员 有没有办法通过 PHP-FPM 跑 PHP 实现一个 socket server?
直接裸跑一个php进程好了,不要和php-fpm搞一起


至于性能,看你具体干什么用途了。

我在公司用php的socket做过很多性能要求不苛刻的东西。

话说几年前我还见过一个网页在线客服服务商的后台服务整个一个php+socket写的。(就是那种网页上挂一个在线客服对话框那种东西)


性能要求苛刻的,用node.js或者golang吧(从部署和升级的便利上来说更推荐golang,直接可执行程序一考完事)
2014-02-26 21:18:44 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
我们用的比较多的架构是这样的:
Job Server: gearman
fetch_worker: 用node.js写的一个抓取脚本,连上gearman获取并处理抓取任务,支持socks5代理,worker数量动态自动调整,可分布到多台机器
队列服务: RabbitMQ
KV存储: 我们用redis-storage,一个redis接口+leveldb存储后端的东西,本身支持snappy压缩


处理流程是这样的:
1. 一个抓取调度进程
1.1 从rabbitmq读取抓取url
1.2 预处理后交给gearman,预处理包括抓取频率的控制,代理服务器的决策等
1.3 抓取结果存储,写入redis-storage服务器
1.4 写入rabbitmq队列通知分析进程处理
1.5 对于需要跳转或者需要重试的抓取,把url再次插入rabbitmq抓取队列即可。
1.6 遇到404等错误,直接丢弃结果

2. 一个数据分析进程
1.1 从rabbitmq队列获抓取成功的消息
1.2 从redis-storage服务器提取页面数据
1.3 如果是过渡页,分析下一步的url插入抓取队列
1.4 如果是目标页,分析信息,保存结果


我们主要用php
2014-02-25 22:34:32 +08:00
回复了 miao 创建的主题 PHP SQL ORDER BY RAND() 效率太低如何破
@flytwokites 更新太频繁会降低mysql的缓存的命中率
2014-02-21 18:20:26 +08:00
回复了 yakczh 创建的主题 Python pycurl 相比 requests 是不是效率要高一些?
一直用gearman

再用node写一个worker,支持socks5代理

爬虫直接将抓取任务交给gearman,异步执行
@aisensiy 后者cpu比前者提高30%左右
看具体应用啊,关系型数据你不用mysql不是自己找坑吗
2014-02-15 23:37:52 +08:00
回复了 uniway 创建的主题 汽车 推荐一款 20W 左右的车子呗
长安福特的车还是不要碰了吧
2014-02-15 23:35:02 +08:00
回复了 hcw1588 创建的主题 问与答 阿里云 mysql 编译出错
自己编译图个啥啊
2014-02-15 23:29:31 +08:00
回复了 cloudxe2v 创建的主题 Python 使用 python twisted 框架开发权威 DNS,目前有啥好的方案否?
IP库kv太巨型了吧,还是塞内存里二分查吧
2014-02-15 23:23:54 +08:00
回复了 brickgao 创建的主题 Python 如何保证并发下数据库操作的原子性?
如果业务更复杂点的原子操作,可以用mysql的GET_LOCK() RELEASE_LOCK()简单实现上锁,只要保证大家都连同一台mysql服务器就可以跨机器“集群锁”了
2014-02-13 19:06:52 +08:00
回复了 ekousp 创建的主题 Linux 请教:curl/wget 一个网站首页的时候源码获取不完整
测试了一下,果然奇葩。 绝对是服务器端有问题
2014-02-13 14:16:24 +08:00
回复了 ekousp 创建的主题 Linux 请教:curl/wget 一个网站首页的时候源码获取不完整
@ekousp 网速太慢了? 不开压缩时传输过程中超时了
2014-01-29 10:04:41 +08:00
回复了 9 创建的主题 Go 编程语言 用 go 做开发坑好多,各位是怎么用的。
昨天遇到一个坑
fp,_ := os.Open(...)
fp.ReadAt(buf,1000) 之后文件指针没移动(文档中没有指出这点0)
fp.Seek(0,1) 得到的当前读写位置还是0
2014-01-27 22:49:23 +08:00
回复了 xieyibin2084 创建的主题 Python 国内哪家ip归属api靠谱?
@sobigfish ip.taobao.com没jsonp调用形式?那如何把10qps的限制转嫁到用户端发送呢 (对网站来说)
2014-01-27 00:29:19 +08:00
回复了 chenyg32 创建的主题 程序员 你们觉得哪个Php框架比较好
ZendFramework
当然,没个ORM会很痛苦,那就配上 Propel 吧

至于性能...... php这玩意还想要啥性能

开启eAccelerator 、zendopcache之类的是必须的,响应时间勉强够用

要高并发? 不堆机器怎么行
2014-01-24 21:51:32 +08:00
回复了 lijinma 创建的主题 NGINX Nginex设置部分rewrite没成功,求大侠帮忙。。。感谢
没rewrite 的会进入该server { ... } 的其他配置流程啊

你应该反过来,可能更容易排查

先让 www.old.com 正常访问,然后 加rewrite让部分条件301到新域名
2014-01-18 21:39:24 +08:00
回复了 ge2009 创建的主题 问与答 大家的无线路由器如何选信道
@little_cup +1 一直用这款app查看
2014-01-17 22:16:10 +08:00
回复了 cbsw 创建的主题 程序员 说说你最喜欢哪个软件或语言的 logo
有比php更原始的吗 -_-
2014-01-11 12:03:04 +08:00
回复了 rAYz 创建的主题 程序员 电信偷偷把公网IP换成了内网IP
家里路由器目前得到的还是公网ip
2014-01-11 12:02:10 +08:00
回复了 rAYz 创建的主题 程序员 电信偷偷把公网IP换成了内网IP
@sgissb1 杭州电信12M光纤, 上行有几秒钟峰值逐渐降低稳定在240kB左右 下载1.1M左右
1 ... 69  70  71  72  73  74  75  76  77  78 ... 87  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1976 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 44ms · UTC 01:21 · PVG 09:21 · LAX 18:21 · JFK 21:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.