V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
blond
V2EX  ›  问与答

爬虫自动扩充爬取的 url 范围

  •  
  •   blond · 2014-11-11 20:04:46 +08:00 · 2858 次点击
    这是一个创建于 3668 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,小弟在一家公司做爬虫,老大安排任务,让我自动完成爬虫爬取的url范围扩充,小弟经验浅薄,实在没什么好的办法了,希望各位大大指点一二,在此谢过了。
    6 条回复    2014-11-13 21:42:32 +08:00
    jason52
        1
    jason52  
       2014-11-11 21:56:34 +08:00
    深度优先?广度优先?

    布隆过滤器?

    题目没说清楚,没法下手啊
    blond
        2
    blond  
    OP
       2014-11-12 19:17:14 +08:00
    @jason52 哦,不好意思,是广度优先,在爬虫爬取url的过程中自动发现现有url库中没有的url,但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢
    Melodic
        3
    Melodic  
       2014-11-12 19:56:22 +08:00
    另设path关键字,域名+path分层级比对,没有就加入?
    jason52
        4
    jason52  
       2014-11-12 21:51:27 +08:00
    @blond 在爬虫爬取url的过程中自动发现现有url库中没有的url

    这一步还是好做的。。

    “但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢” 对啊,这是问题所在啊。。

    你还是需要把问题抽象一点,脱敏后描述一下
    blond
        5
    blond  
    OP
       2014-11-13 18:42:29 +08:00
    @jason52 比如说我只关心房地产方面的信息,这些url要近可能的是关于房地产的新闻
    jason52
        6
    jason52  
       2014-11-13 21:42:32 +08:00
    @blond 那要看新闻类型有没有类似的模式可以匹配上了,还是类似于找规律的问题,既然是尽可能的话,肯定也没要求不重不漏,应该还是不会很难吧。不过关键要看模式好不好匹配出来了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5342 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:45 · PVG 13:45 · LAX 21:45 · JFK 00:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.