#####最近要找房搬家所以启用了去年的爬虫并做了一些修改,现在基本逻辑是:
1.1 四位数整除 50 除不开的 pass
1.2 11 位数电话号码 pass
一级排除关键字,如果含有直接 pass,比如远点的地点、公寓等
指定范围关键字,如果含有置为符合数据保存
二级排除关键字,不包含(2,3)但包含二级 pass 掉,不包含二级置为备用数据保存
一个小组爬 15 页,每页 25 条,每小时爬取一次。
之前也就爬取 5 个小组的,感觉数据还行,昨天增加到 16 个小组,符合的数据增加了很多,但是很多都是各类大中小型的公寓,整的我以为把个人发布的过滤掉了专门筛选了公寓的数据呢。
目前思路只能通过排除关键字增加过滤程度,看多了就会发现有些关键字排除型就大点,比如"南北通透|拎包入住"大概率是公寓或者中介,".*大单间"很多也都是公寓,但是同时也会过滤掉个人发布的
所以大家有没有什么其他思路
加了几个功能:
过滤效果还是挺明显的,不过就是帖子也少了很多,这说明中介太多还是过滤强度太大了呢
1
Rorysky 2019-07-17 13:00:45 +08:00 via iPhone
豆瓣没有反爬措施?
|
2
guansixu 2019-07-17 13:35:01 +08:00
豆瓣小组找房体验太差了,一个个点进去,还得一个个问问有没有租出去,要是楼主回复的慢点,几天过去了都见得能沟通完。还是找专业的吧。
|
3
dai123456 2019-07-17 13:35:02 +08:00
不需要使用高匿名的 IP 吗?
|
4
snappyone 2019-07-17 13:39:21 +08:00
爬取所有数据->人工标注->机器学习
|
5
pandameng OP |
8
SeaRecluse 2019-07-17 14:08:47 +08:00
为什么要把 11 位号码去掉呢,好多人比如我留微信的时候就只留个号码
|
9
pandameng OP @SeaRecluse 标题中的手机号 ,目前为止看到的 95%以上都是中介、公寓管家,个人发帖基本都是在帖子内留个微信号啥的
|
10
brust 2019-07-17 16:58:47 +08:00
好多小组,那个管理员就是从事中介或者公寓的
|
11
Yang2096 2019-07-17 17:26:14 +08:00
http://bj.yurixu.com/manage/beijing.php 这个只有北京和上海的, 不知道楼主在哪
|
13
icegreen 2019-07-17 18:14:34 +08:00
现在靠谱房源都链家了; 豆瓣真的很难遇到合适的。
|
17
Abirdcfly 2019-07-18 11:25:48 +08:00
@Rorysky #1 豆瓣是对爬虫最?友好的网站了。特别过分的才会有封 ip 之类的惩治措施。所以爬虫教学 /入门帖很多是爬豆瓣的 2333
|
18
qw30716 2019-07-18 15:15:17 +08:00
楼主,我也深圳,有机会共享下
|
20
twitch 2019-07-20 10:51:54 +08:00 via Android
现在豆瓣上的中介有点多
|
22
pandameng OP 1.目前新增了黑名单过滤词和黑名单表,爬取分析时会保存疑似中介公寓的发帖人,并在爬取后判断帖子的发帖人是否在黑名单中,感觉过滤了很大一部分
2,下一步准备看一下查到的资料-余弦相似度,好像是分词对比相似度,过滤掉相似的帖子标题,应该可以用上 |
23
tomxin7 2019-08-01 21:17:17 +08:00
http://house.jiandan.live/index.html 去年就写了这个,不过过滤规则没有楼主的全,打算最近也要优化一下,太多中介的内容了
|