之前在博客园写了几篇文章,同时投递了博客园首页,今天无意在浏览器搜了一下那些文章的标题,发现自己的文章竟然被爬了!
(这里本来想放一张图的,想想还是算了)
要说他们盗走就盗走了,至少还能给我引点流,但是他们还把原文中的链接全部转换了,他们以此来引流,部分网站还顺便做一些自家的广告;
这我就不能忍了,于是决定做一点什么来防止这些行为:
禁止随意复制
#cnblogs_post_body { moz-user-select: -moz-none; -moz-user-select: none; -moz-user-select: none; -khtml-user-select: none; -webkit-user-select: none; -ms-user-select: none; user-select: none;}#cnblogs_post_body code-box { moz-user-select: -moz-text; -moz-user-select: text; -moz-user-select: text; -khtml-user-select: text; -webkit-user-select: text; -ms-user-select: text; user-select: text;}自动生成防盗信息
这个主要是面对用户的,可以让用户自己辨认文章本身的来源
这里要注意,爬虫程序会把链接替换成自己的链接,所以我们用 <code> 代码块进行一个包裹

这里有一个小技巧,爬虫只会爬取内容,而不会爬取样式,所以我们可以把某些内容(比如星号)做一个 repeat(1000) 操作,然后在自己的网站上对这个结构进行 overflow:hidden 设置,而其他网站没有这个样式,自然就无法正常阅读了!这样:

最后: