机器学习生成 xpath，进行通用爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2824 天前的主题，其中的信息可能已经有所发展或是发生改变。

做通用爬虫，现在的正文提取已经很稳了 95%以上的正文提取率可以实现. (通用提取和 xpaht,css 等选择器)

但是为了更精确，对某域名或类型网站下，进行随机抽取 10-20 个网页。

用上述正文抽取的 content, 和原网页 html.

进行学习，然后推测出 xpath 之类。生成 xpath 配置项.

目标：以 95%的成功率实现 99.99%的成功率.

老哥们有好的思路么？@binux

参考:

pyspider 作者：Data Highlighter

xpath

正文

爬虫

提取

14 条回复 • 2017-12-31 01:19:53 +08:00

binux

2017-12-22 20:57:44 +08:00 via Android

机器学习个蛋啊，选择器总共能用的特征就 class，ID，属性那么几个，多个页面比对，组合一下选个最好的就完了

TimePPT

PRO

2017-12-22 22:13:42 +08:00 via iPhone

@binux 哈哈哈，正解

droiz

2017-12-22 22:15:10 +08:00

这年头怎么什么都机器学习啊。

ihciah

2017-12-22 22:23:50 +08:00

别喷机器学习啊，都是工具，有用就行，多搞点数据即使直接丢特征进 svm 也比手动写规则省事，精确。
除了一楼提到的几个特征，渲染后对应的位置、面积、长宽比，还有单词 /字符数之类的，应该也是很好的辅助。

geofvt

2017-12-22 23:21:08 +08:00

据我观察，大部分新闻网站，一个标签下有大段文字，或者有很多样式一致（指字体）的标签包裹小段文字

cross4future

2017-12-22 23:24:25 +08:00

html 头部尾部清洗+文本密度
以前我们公司是这么做的

mogging

2017-12-23 08:26:09 +08:00 via iPhone

xpath 处理 js 还是很麻烦

ZSeptember

2017-12-23 10:10:09 +08:00 via Android

前公司做过用文本密度，准确率 95 以上。gayhub 上有个 node 的实现，准确率很高，但是性能稍微差点，要用 JSdom 渲染一遍。

scriptB0y

2017-12-23 11:09:26 +08:00

目前我用过最好的是印象笔记的 Chrome 剪藏插件。。。

话说很多网站根本不靠谱的。class id 属性不太好使（参见极端例子： https://www.kawabangga.com/posts/2240 ）文本密度好一些

mains

2017-12-23 11:24:36 +08:00

@scriptB0y 目前我的比印象笔记的 Chrome 剪藏插件识别率更好。因为我是组合通用抓取和 xpath 规则等。

mains

2017-12-23 11:45:28 +08:00

现在是可以根据文本内容自动推算出正文区域，设置 xpath 是更精确一点，不设置也行。(正常提取和 headless 等)

也设计了可视化的 xpath 提取工具，然后写入配置项，一个站 20s 左右。

现在就想人工介入的更少。

Draplater

2017-12-23 11:47:42 +08:00 via Android

@binux 不同网站的 class id 属性不一样

fish267

2017-12-23 14:20:50 +08:00

楼主有没有写过 React 网站的爬虫, 感觉维护特别费劲

voidtools

2017-12-31 01:19:53 +08:00 via Android

@mains 求此工具入口