V2EX › tikazyq 的所有回复 › 第 18 页 / 共 44 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 14 15 16 17 18 19 20 21 22 23 ... 44

❮

❯

2020-09-11 11:29:56 +08:00

回复了 zhimo08 创建的主题 › 奇思妙想 › 更高级的编程方式：现寻求技术大牛或者有勇气挑战新技术的技术合伙人。

试试这个 https://github.com/kelseyhightower/nocode

2020-09-10 20:43:02 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@bianz103 这个也是一个小算法，生成 selector 的

2020-09-10 13:40:19 +08:00

回复了 famensaodiseng 创建的主题 › 前端开发 › 前端技术选型只有三大框架了吗？

原生 js

2020-09-10 12:01:42 +08:00

回复了 xiaofan2 创建的主题 › 问与答 › 如何才算一篇好的技术文章

注意别在文章或标题中加以下关键字:
1. 面试
2. 涨薪
3. 万字
4. 吐血推荐
5. 初学者
6. 入门
7. 手撕
8. 必备
9. 详解
10. 如何

2020-09-09 11:25:59 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@ziyunhx 大佬厉害，回头研究下

2020-09-09 09:26:23 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@binux 其实真正的列表识别还是有一些 trick 的，需要将 html 各种信息进行分析统计判断，要做到高准确率还是有些难度的

2020-09-09 09:25:10 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@Mitt
@haoxuexiaoyao 现在算法还在优化，等成熟了会放出来

2020-09-09 09:24:51 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@binux 大佬厉害，有不有相关的链接可以参考下？

2020-09-08 22:02:08 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@herozzm html 就是 xml，json 也是结构化的，本质都是一样的

2020-09-08 22:01:36 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@lemonda 你这种是复杂需求，需要更复杂的算法才可以

2020-09-08 21:03:02 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@mscb 不是深度学习哦，算法其实还比较简单

2020-09-08 20:24:10 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@heiheidewo 爬虫开发者最怕你这样的前端杀手

2020-09-08 20:23:34 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@bojue 他们也做智能爬虫？

2020-09-08 20:23:13 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@Tianyan 现在主流搜索引擎都有比较健全和复杂的算法来规避垃圾内容了，除非你用的是垃圾搜索引擎

2020-09-08 20:10:00 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@marcushbs 可惜了，不过 kimono 也不完全自动化，需要一些监督，当时是个不错的产品

2020-09-08 20:09:25 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@bojue 我记得后羿采集器可以，但也没公开算法，而且貌似收费，目前至少开源做的很准的还是比较少

2020-09-08 19:54:02 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@louettagfh 同上

2020-09-08 19:53:49 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@guyskk0x0 暂时不打算开源，可能会暂时做成 api 供测试

2020-09-08 19:53:21 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@yunser 思路基本正确，不过实现要稍微复杂一些

2020-09-08 19:52:57 +08:00

回复了 tikazyq 创建的主题 › 分享创造 › 开发了一个自动识别 HTML 列表的算法，感觉离智能爬虫又近了一步

@sillydaddy 是的，解决的就是这个问题，但既不是根据深度学习也不是根据渲染位置，是非常简单的算法

1 ... 14 15 16 17 18 19 20 21 22 23 ... 44

❮

❯