之前的是 div class="rich_media_content " id="js_content">(.*?)</div>/s
现在 html 代码加了些东西 div class="rich_media_content " id="js_content" style="visibility: visible;">,在正则上也加了,为啥爬到空数据---
1
aihimmel 2020 年 2 月 7 日 via Android |
2
airyland 2020 年 2 月 7 日
正则应该有 bug。我用的是 DOM(cheerio) 的方式解析 https://github.com/airyland/we-extract
|
3
wangyzj 2020 年 2 月 8 日
敢问你是从 sogou 爬的吗?
|
5
EPr2hh6LADQWqRVH 2020 年 2 月 8 日
连 HTML 都不 parse 就直接正则这是谁教会的
|