V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
secsilm
V2EX  ›  Python

像这种多新闻来源的爬虫,是每种来源都做一套爬虫?

  •  
  •   secsilm ·
    secsilm · 2020-02-17 09:49:54 +08:00 · 6357 次点击
    这是一个创建于 1502 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如果不是,通常是用啥方法来做?

    33 条回复    2020-02-22 23:34:25 +08:00
    est
        1
    est  
       2020-02-17 09:54:18 +08:00 via Android   ❤️ 3
    这个大概率是坐了一个小编
    shanlan
        2
    shanlan  
       2020-02-17 09:55:44 +08:00
    1.官方 API
    2.人肉抓取
    3.定制爬虫
    secsilm
        3
    secsilm  
    OP
       2020-02-17 09:56:19 +08:00
    @est 是个狠人,这得多少人干这
    murmur
        4
    murmur  
       2020-02-17 09:56:31 +08:00
    官方的新闻直接爬,非官方的人工洗稿
    twor2
        5
    twor2  
       2020-02-17 09:56:47 +08:00
    应该是人工的吧,至少半人工
    ired
        6
    ired  
       2020-02-17 09:58:04 +08:00
    @est 同意,人肉 API
    secsilm
        7
    secsilm  
    OP
       2020-02-17 09:58:44 +08:00
    @murmur 直接爬的话,是不是也得每种来源搞一套爬虫?这工作量感觉不小啊
    litmxs
        8
    litmxs  
       2020-02-17 10:04:04 +08:00 via Android
    就算是人力成本也不是很高吧
    andylsr
        9
    andylsr  
       2020-02-17 10:10:09 +08:00
    @secsilm 原则上每个来源写一个解析就行了
    est
        10
    est  
       2020-02-17 10:14:21 +08:00   ❤️ 4
    @secsilm 没有人的话,万一新闻源搞了个大新闻,你自动同步上去,等于你也有一份泽任吧。
    jellybool
        11
    jellybool  
       2020-02-17 10:16:01 +08:00 via Android   ❤️ 1
    @est 泽任这个词,excited !
    freakxx
        12
    freakxx  
       2020-02-17 10:17:06 +08:00
    不是一套,

    一般是先自己搭个框架,
    像这种,可以分别写 爬取机制 + 清洗机制(parse ),然后做入库。



    像 v 站一个老哥的,pyspider 用来做这玩意就还不错。
    locoz
        13
    locoz  
       2020-02-17 10:21:10 +08:00 via Android
    新闻类的直接上智能提取就行了,不用写规则,而且这种需求就无脑刷最新新闻那一页就行。
    至于最终发布…显然部分非官方的新闻是人肉处理的,有新闻就直接推到编辑那,审核没问题了再提出关键内容放上去。
    nocoolsandwich
        14
    nocoolsandwich  
       2020-02-17 10:25:28 +08:00
    看你样子是想要疫情的数据吧,github 有人整理好了,数据来源丁香园好像是.https://github.com/BlankerL/DXY-COVID-19-Data
    delectate
        15
    delectate  
       2020-02-17 10:28:39 +08:00
    来源就那几个,写规则就好;一般人机器爬,人肉审、二审、发。
    alaikis
        16
    alaikis  
       2020-02-17 10:37:58 +08:00
    做几个规则,一个源配置一下就好呀,没那复杂
    murmur
        17
    murmur  
       2020-02-17 10:39:36 +08:00
    @secsilm 官方新闻其实就那么几个源,一个字都不能改
    secsilm
        18
    secsilm  
    OP
       2020-02-17 12:31:51 +08:00
    @locoz 智能提取是个什么鬼
    Ericcccccccc
        19
    Ericcccccccc  
       2020-02-17 12:32:56 +08:00
    人力成本很低啊
    locoz
        20
    locoz  
       2020-02-17 12:38:57 +08:00   ❤️ 1
    Mavious
        21
    Mavious  
       2020-02-17 12:42:29 +08:00
    灰字提要,得人工来提取吧,毕竟新闻也没有固定格式,核心内容还是要人来提取的。
    jingniao
        22
    jingniao  
       2020-02-17 12:45:54 +08:00 via Android
    丁香园是人工的,因为早上七点之前好像大都不更新。
    刚开始那几天好像是小编通宵 /轮班了,晚上也有更新。
    jabin88
        23
    jabin88  
       2020-02-17 12:52:50 +08:00
    正文提取 算法,不要用正则
    2ME
        24
    2ME  
       2020-02-17 13:07:06 +08:00 via Android
    关键词 Readability 识别新闻站的正文进行提取
    herozzm
        25
    herozzm  
       2020-02-17 13:08:08 +08:00 via Android
    通用爬虫 针每个新闻源定制规则
    wolfan
        26
    wolfan  
       2020-02-17 13:11:27 +08:00 via Android
    爬微博不就成了😅
    lshero
        27
    lshero  
       2020-02-17 14:19:21 +08:00
    有个岗位叫做 值班编辑
    chroming
        28
    chroming  
       2020-02-17 14:33:11 +08:00
    专业一点的是用火车头这类工具每个网站写提取规则来爬。要求不高的话找现成正文提取算法直接提取
    chroming
        29
    chroming  
       2020-02-17 14:33:35 +08:00
    如果只是几个网站的话那人工直接复制更简单
    secsilm
        30
    secsilm  
    OP
       2020-02-17 20:42:30 +08:00
    @locoz 学习了,谢谢
    ChangQin
        31
    ChangQin  
       2020-02-17 22:02:57 +08:00
    我想爬 twitter 的数据,结果开发者账号好难申请啊。。。
    yinzhili
        32
    yinzhili  
       2020-02-18 10:31:15 +08:00
    这种肯定是人工介入的,怕出问题责任重大
    enrolls
        33
    enrolls  
       2020-02-22 23:34:25 +08:00
    认真观察网页结构,其实是有通用方法的,印象笔记不是也剪藏了莫。
    (顺带测试回复功能)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5198 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 09:27 · PVG 17:27 · LAX 02:27 · JFK 05:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.