V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
laoyuan
V2EX  ›  程序员

家里的电脑24小时跑爬虫,XP系统下Apache不稳定,三天两头重启,如何破?

  •  
  •   laoyuan ·
    laoyuan · 2013-03-12 08:24:29 +08:00 · 6446 次点击
    这是一个创建于 4084 天前的主题,其中的信息可能已经有所发展或是发生改变。
    XP系统不能换,因为是在家里用的电脑。感觉无解,因为没啥规律,有时5天Apache才完蛋一次,有时一小时两次。。。。所以只能上虚拟机装Linux系统了?
    在虚拟机里就跑Apache + PHP,或者Nginx + PHP,数据库MySQL放外边就行。。我机子上有VMware~




    [Mon Mar 11 04:41:33 2013] [notice] Parent: child process exited with status 3221225477 -- Restarting.
    [Mon Mar 11 04:41:35 2013] [notice] Apache/2.2.4 (Win32) PHP/5.2.11 configured -- resuming normal operations
    [Mon Mar 11 04:41:35 2013] [notice] Server built: Jan 9 2007 23:17:20
    [Mon Mar 11 04:41:35 2013] [notice] Parent: Created child process 135288
    [Mon Mar 11 04:41:36 2013] [notice] Disabled use of AcceptEx() WinSock2 API
    [Mon Mar 11 04:41:36 2013] [notice] Child 135288: Child process is running
    [Mon Mar 11 04:41:36 2013] [notice] Child 135288: Acquired the start mutex.
    [Mon Mar 11 04:41:36 2013] [notice] Child 135288: Starting 250 worker threads.
    [Mon Mar 11 04:41:36 2013] [notice] Child 135288: Listening on port 80.
    第 1 条附言  ·  2013-03-15 19:48:51 +08:00
    重启时报错弹框:内存不能为read。。。这种情况偶然出现的话,我认为是基本无解。。。
    36 条回复    1970-01-01 08:00:00 +08:00
    laoyuan
        1
    laoyuan  
    OP
       2013-03-12 09:07:47 +08:00
    决定今天晚上先装个nginx试试再说!
    wy315700
        2
    wy315700  
       2013-03-12 09:08:33 +08:00
    试试2003
    for4
        3
    for4  
       2013-03-12 09:26:04 +08:00
    加个进程守护, 挂/死了自动重启进程
    用PHP抓? 强烈建议改成NodeJS/Python/Golang
    laoyuan
        4
    laoyuan  
    OP
       2013-03-12 09:34:01 +08:00
    @for4

    无奈啊,主要精力在业务上,写的程序就是得过且过~~
    ergatea
        5
    ergatea  
       2013-03-13 01:30:40 +08:00
    虚拟机嘛
    sohoer
        6
    sohoer  
       2013-03-13 01:33:28 +08:00
    @laoyuan 要不借个爬虫给你用用
    bixuehujin
        7
    bixuehujin  
       2013-03-13 01:42:23 +08:00
    可以试试在命令行下跑PHP(如果方便的话)。
    thbourlove
        8
    thbourlove  
       2013-03-13 09:57:15 +08:00
    跑个爬虫还要开apache,我表示无法理解。。
    sarices
        9
    sarices  
       2013-03-13 10:42:18 +08:00
    对啊,不能命令行运行吗?
    laoyuan
        10
    laoyuan  
    OP
       2013-03-13 11:03:00 +08:00
    命令行就不会重启么。。。。
    laoyuan
        11
    laoyuan  
    OP
       2013-03-13 11:03:54 +08:00
    @thbourlove
    Nginx还可以接受吧?
    hulk
        12
    hulk  
       2013-03-13 12:54:05 +08:00
    @laoyuan 。。。命令行哪来的重启..
    laoyuan
        13
    laoyuan  
    OP
       2013-03-13 15:05:32 +08:00
    @hulk 啊哈哈我明白了,命令行方式不需要apache对吧!!
    davidzhang
        14
    davidzhang  
       2013-03-13 15:10:53 +08:00
    还是试试nginx吧
    davidzhang
        15
    davidzhang  
       2013-03-13 15:14:32 +08:00
    @thbourlove 哈哈,你说的在理,我也不明白,爬虫用开apache,我就知道用数据库就好了
    shiny
        16
    shiny  
       2013-03-13 16:04:33 +08:00
    我有个想法,就是用树莓派来跑爬虫,还省电。
    molinxx
        17
    molinxx  
       2013-03-13 16:07:05 +08:00 via Android
    apache这东西在win下真心不行。。。
    sohoer
        18
    sohoer  
       2013-03-13 18:18:50 +08:00
    @shiny 已经买树莓派了,看看我的采集器在树莓派上跑得欢不欢。
    bengle
        19
    bengle  
       2013-03-13 18:50:27 +08:00
    重装系统ubuntu
    laoyuan
        20
    laoyuan  
    OP
       2013-03-13 19:05:53 +08:00
    @sohoer 听说树莓派不大稳定,会死机,你当小白鼠先~
    sohoer
        21
    sohoer  
       2013-03-13 20:20:06 +08:00
    @laoyuan 呵呵,那真的当小白鼠了
    hulk
        22
    hulk  
       2013-03-13 20:26:46 +08:00
    @laoyuan 哈哈 是的 apache到底也是命令行,只是对资源做管理..403是权限问题...curl支持basic还有cookie认证 这个好解决了
    lookhi
        23
    lookhi  
       2013-03-13 20:27:54 +08:00
    @sohoer 跑不动吧 这个性能会急死人的
    laoyuan
        24
    laoyuan  
    OP
       2013-03-14 14:04:06 +08:00
    @davidzhang
    Nginx在win下跑PHP貌似更是无解,我今天早上安装之后,发现每次只启动一个php-cgi进程,只能同时处理一个php请求,也就是说,只能跑一条爬虫。。。
    laoyuan
        25
    laoyuan  
    OP
       2013-03-14 14:09:53 +08:00
    尽管网上有很多Win系统装 Nginx + PHP 的教程,但装完之后实际上都是单php-cgi进程处理php请求,完全没有并发。。。如果只是简单的启动多个php-cgi进程,反正我测试无效,还是单进程。。。
    shiny
        26
    shiny  
       2013-03-14 14:13:49 +08:00
    @laoyuan 以前做过nginx+php在windows下的集成环境,最严重的问题是:如果你按住F5,php进程就有可能退出,需要启用额外的监控进程,例如 xxfpm。

    另外也在服务器环境下跑过windows+apache,常常有奇奇怪怪的问题。最好还是Linux下跑,如果非要windows,用IIS也不错(推荐服务器版操作系统)。
    laoyuan
        27
    laoyuan  
    OP
       2013-03-14 15:14:40 +08:00
    好吧,虚拟机ubuntu,晚上就装!!
    sohoer
        28
    sohoer  
       2013-03-14 20:50:58 +08:00
    @laoyuan
    @shiny
    呵呵,已经在树莓派上跑起来了,是有点慢,不过还算稳定的运行着
    sohoer
        29
    sohoer  
       2013-03-14 20:54:28 +08:00
    zyAndroid
        30
    zyAndroid  
       2013-03-14 21:02:28 +08:00
    你们都用爬虫爬什么?
    perrywky
        31
    perrywky  
       2013-03-14 22:36:07 +08:00
    爬虫和apache有什么关系?爬自己?
    laoyuan
        32
    laoyuan  
    OP
       2013-03-15 05:25:53 +08:00
    @zyAndroid 爬京东亚马逊的价格,因为我是做比价站的。。。
    http://www.jiabibi.com/

    @perrywky 因为我只会简单的PHP,所以我同时启动多个php实现伪多线程,另外写了一个页面在浏览器打开对这些php进行启动、停止、监测等等。。。用web进行管理感觉就是高级~~
    thbourlove
        33
    thbourlove  
       2013-03-15 08:56:23 +08:00
    @laoyuan 搞半天我总算明白你为啥要开APACHE了。。就是为了用web进行管理感觉“高级”一点。。。
    likuku
        34
    likuku  
       2013-03-15 12:05:20 +08:00
    树莓派+1
    mozutaba
        35
    mozutaba  
       2013-03-15 13:08:25 +08:00
    我想知道采集来干什么。
    我打算爬种子。
    lookhi
        36
    lookhi  
       2013-03-15 13:31:55 +08:00
    @sohoer 感觉像火车头啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3753 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 04:24 · PVG 12:24 · LAX 21:24 · JFK 00:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.