首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
广告
V2EX
›
编程
对于新内容监控的程序,面临大量去重计算如何实施比较好?
richiefans
·
2012-08-10 16:45:17 +08:00
· 2400 次点击
这是一个创建于 4481 天前的主题,其中的信息可能已经有所发展或是发生改变。
需要做大量的内容页面进行监控
主要是方便了解各网站最新内容的 没有rss
大概设想是准备监控页url列表
定期抓取urlhtml 遍历所有a节点 和数据库内的url做比对 如果以前抓取过该链接即视为重复 数据量小没什么问题 用mysql来存储 判断的时候直接where url = alink 如果存在记录就是重复
如果数据量过大 如何解决?
或者这种程序有什么现成的解决方案吗?
大概url列表过万,监控频率按小时差不多
url
监控
抓取
2 条回复
•
1970-01-01 08:00:00 +08:00
1
richiefans
OP
2012-08-10 16:45:37 +08:00
不需要采集文章内容 只需要了解最新的内容link and title即可 也就是抓取到列表就可以了
2
richiefans
OP
2012-08-10 16:58:16 +08:00
对url 进行md5 之后匹配是不是会性能好一些
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2572 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms ·
UTC 15:51
·
PVG 23:51
·
LAX 07:51
·
JFK 10:51
Developed with
CodeLauncher
♥ Do have faith in what you're doing.