一个网站的终极内容防复制的设计，没见过更加丧心病狂的了，求破求算法

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 4479 days ago, the information mentioned may be changed or developed.

很多年前发现的一个奇葩网站，内部所有文章的内容都用一种奇葩的防复制设计，不但防机器人，还防人肉复制，曾想破了脑袋去破，最终还是放弃了，耿耿于怀了很多年，原始网址忘记了，就用一个图片来说说这个设计吧，看看大家有没有破法。

整篇文章被多个表格包围，表格大小随机，一个文字一格，手工复制出来，导成纯文字版整个文章文字顺序全部打乱，无法阅读。

复制

奇葩

很多年

32 replies • 1970-01-01 08:00:00 +08:00

Livid

MOD

PRO

Jan 27, 2014 via iPhone

如果对方还考虑 SEO 的话，把 UA 伪装成百度看看能不能拿到不同的输出。

raincious

Jan 27, 2014

截图OCR转换。

jjplay

Jan 27, 2014

国人都是人才...

Evance

Jan 27, 2014

如果生成的算法在后端，那么通过字符串处理的办法，很大情况情况无解，通过 @raincious 所说的办法比较有效。
如果算法在前端，找到生成脚本修改处理的算法函数即可。

hq5261984

Jan 27, 2014

chrome浏览器粘帖为纯文本。
然后自己再排版。

bengtuo

Jan 27, 2014

只要能看到正确的内容便是可以破的

FrankFang128

Jan 27, 2014

好办法。对付copy者很管用。

FrankFang128

Jan 27, 2014

@bengtuo 中文OCR识别度太烂，所以楼主说的这种暂时无解，我觉得。

Mutoo

Jan 27, 2014

其实也不是没办法，可以把每个字的位置信息提取出来，然后做一个二维链表把它们重新排序。就像古代印刷术那样，最后得到文字内容。

提取位置的方法有很多，这里我弄了个示例
http://jsfiddle.net/mutoo/w5KJz/

casparchen

Jan 27, 2014 via iPad

他怎么处理的，你就逆处理呗。比如他是按原文本行列号生成表格坐标，那只需将坐标转换成行列号再拼凑字符串即可

icedx

Jan 27, 2014 via Android

@FrankFang128 没有识别不出来的文字只有识别不出文字的软件

jinwyp

Jan 27, 2014

我觉得,有了canvas, 以后内容可以直接用canvas输出, 很难复制

yangff

Jan 27, 2014

@jinwyp 前端绘制都可以做，大不了自己编译个chrome把freetype的接口暴露出来，直接服务端下发图片就行了，只能ORC。

x86

Jan 27, 2014

贴个地址出来

raincious

Jan 27, 2014

@FrankFang128 False。就算建立自己的字图索引，网页截图那么高精度的采样，识别这个，没有任何问题。

zxp

Jan 27, 2014

关键是上面只是这个网站页面的一种情况，最纠结的就是表格还有嵌套，所以要写个机器人来自动抓内容面临的困难太大了，网站内容的自动生成的算法也很让人困扰，最后只能怀疑网站是全人工手动制作的，只能佩服站长为了防复制的巨大毅力了。。。

Mutoo

Jan 27, 2014

@zxp 建立字符位置信息可以无视嵌套。位置是相对于网页边界的。

zxp

Jan 27, 2014

@Mutoo 啊，很对，很好的思路！

zxp

Jan 27, 2014

内容生成的算法其实之前也想过一些，比较靠谱的是先生成表格的布局，对每个格子进行编号，然后对格子排序，把文字内容按顺序填写进去，相对抓取的难度应该要小一些。

hsu

Jan 27, 2014

@Mutoo 赞一个。

xiaket

Jan 27, 2014

@zxp 这种防复制的算法也只需要写一次, 随机生成一种用多个block来填满一个页面的方法, 然后将文章排版后映射到每个格子中, 最后再渲染出来.

如果做得更过分, 还可以在css/js里面再做一些效果. 改变前面说的映射表... 例如让某个block不显示/把某个block放到左边/用某个block覆盖其他block等等等等...