V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
okface
V2EX  ›  Python

论文数据库爬取?

  •  
  •   okface · 2018-05-16 10:00:06 +08:00 · 2978 次点击
    这是一个创建于 2411 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1.不是知网、万方;
    2.在 tb 上买了一个集成平台的账号,号称几百个数据库论文都可以搜索到,登陆后可以选择你要跳转的数据库,然后这个数据库你就可以任意搜索下载了。想知道这种跳转技术是如何实现的,人家数据库那边不会检测到你是违法账号吗?如果要抓该数据库,直接传个 cookie 就行了?

    ps:招爬虫工程师,联系 [email protected]
    15 条回复    2018-05-16 22:16:03 +08:00
    zynlp
        1
    zynlp  
       2018-05-16 10:10:16 +08:00 via iPhone
    这是在面试吗?
    ProkillerJ
        2
    ProkillerJ  
       2018-05-16 10:15:49 +08:00 via iPhone
    htfy96
        3
    htfy96  
       2018-05-16 10:20:53 +08:00 via Android
    2 的话,一般是买了这些数据库的某个学校的校外代理账号泄露了,你连集成平台,集成平台把你的请求通过校外代理发出去。分析过之前买的某家就是利用了兰州大学的校外代理
    okface
        4
    okface  
    OP
       2018-05-16 10:25:51 +08:00
    @zynlp 没有那么刻意吧。。当然面试聊这个也可以啊
    okface
        5
    okface  
    OP
       2018-05-16 10:26:48 +08:00
    @ProkillerJ 地址打不开。。。被知乎删掉了吧
    omph
        6
    omph  
       2018-05-16 10:45:25 +08:00
    偷的合法帐号,就这样
    PythonAnswer
        7
    PythonAnswer  
       2018-05-16 11:02:24 +08:00 via iPhone
    小哥就是被捉然后自戕的 注意法律风险
    yu099
        8
    yu099  
       2018-05-16 11:05:50 +08:00 via Android
    这个下载一多比如一下子几小时上百篇,直接整个学校论文下载都停掉了。
    学校被这样子搞过
    ProkillerJ
        9
    ProkillerJ  
       2018-05-16 11:39:08 +08:00 via iPhone
    复制错了 应该是这个 https://zhuanlan.zhihu.com/p/27609168
    @okface
    seven2016
        10
    seven2016  
       2018-05-16 11:43:27 +08:00
    跟 vip 视频解析一个原理呀,肯定是有合法的账户能够看到每个数据库的内容,才能抓下来。然后根据用户的需求构造参数用户合法账户去拿数据返回给用户。
    Leigg
        11
    Leigg  
       2018-05-16 12:26:07 +08:00 via Android
    你都没试过,就来问,人家说的是给你搜索,不是给你爬,一个是人,一个是程序
    ioth
        12
    ioth  
       2018-05-16 12:30:15 +08:00
    兼职
    alvin666
        13
    alvin666  
       2018-05-16 13:02:38 +08:00 via Android
    正规数据库是肯定有反爬机制的,我们学校买的数据库之前就因为下载量太大被封了一些 ip,要是不正规的数据库,谁知道里面的论文哪来的
    xmoiduts
        14
    xmoiduts  
       2018-05-16 13:12:35 +08:00 via Android
    触发反爬,直接上门。学校有过翻车经历,题主慎重。
    当年那几个老哥好像下了 7w 篇。
    googlefans
        15
    googlefans  
       2018-05-16 22:16:03 +08:00 via iPad
    肯定会被封
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2855 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:35 · PVG 14:35 · LAX 22:35 · JFK 01:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.