V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  mains  ›  全部回复第 1 页 / 共 1 页
回复总数  14
2017-12-23 11:45:28 +08:00
回复了 mains 创建的主题 Python 机器学习生成 xpath,进行通用爬虫
现在是可以根据文本内容自动推算出正文区域,设置 xpath 是更精确一点,不设置也行。(正常提取和 headless 等)

也设计了可视化的 xpath 提取工具,然后写入配置项,一个站 20s 左右。

现在就想人工介入的更少。
2017-12-23 11:24:36 +08:00
回复了 mains 创建的主题 Python 机器学习生成 xpath,进行通用爬虫
@scriptB0y 目前我的比印象笔记的 Chrome 剪藏插件识别率更好。因为我是组合通用抓取和 xpath 规则等。
edu 版本,零成本永久。。。可以激活 15 台设备(5 台桌面)。
2017-04-27 21:59:16 +08:00
回复了 libo26 创建的主题 分享发现 Feedly Pro 黑五八折优惠
@coldwinds @holong2000 大佬们,出 feedly 永久 pro 么?价格好商量 :-)
t2 http://imgur.com:80@v2ex0.ad.dlog.us/tRz19ev.jpg
2017-03-14 19:08:48 +08:00
回复了 alay9999 创建的主题 程序员 [V2EX技巧] 贴图和贴代码的方法(写给像我一样的小白)
2017-03-14 19:07:24 +08:00
回复了 alay9999 创建的主题 程序员 [V2EX技巧] 贴图和贴代码的方法(写给像我一样的小白)
2017-03-14 18:59:24 +08:00
回复了 mains 创建的主题 Linux 疑问 -- 个人测试机,为什么大部分人推崇 centos !
@8355 说的有道理!!! 2333 .
2017-03-14 17:40:47 +08:00
回复了 mains 创建的主题 Linux 疑问 -- 个人测试机,为什么大部分人推崇 centos !
我的 docker 一般就是用 archlinux 为基础弄的。体积小。挺好的。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5784 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 06:36 · PVG 14:36 · LAX 22:36 · JFK 01:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.