注意!防范搜索引擎过度Digg

2009年8月12日 发表评论 阅读评论

有时我们在通过google百度等搜索引擎浏览网页时,会不知不觉闯入到一些网站未曾公开的页面,这对于网站管理者来说是非常禁忌的。有时我们就会疑问了,我并没有公开过我的网页地址,怎么会在搜索引擎里出现呢?这就是我们下面要讨论的关于搜索引擎Digg的问题。

很多情况下,google等大多数搜索引擎收录和挖掘(Digg)网页并不是像我们人一样直观地在网页上查看页面,而是通过我们的链接(包括内部链接、外部链接)、以及我们的网页源码一步一步地深挖我们的页面的 。虽然说有时候搜索引擎Digg有利于提高我们网站的整体收录页面,但大多数情况下搜索引擎的过度挖掘(Digg)对于我们网站是非常不利的。

一、防范搜索引擎Digg的必要性

这里就牵涉到一个非常重要的问题,你的网页是否在不明显的地方遗留有非公开页面的链接地址 ?或者是并没有在页面显示链接但源码中包含有链接?

或者是安装的插件有链接向你的隐藏页面?这几点在我们进行网页设计和维护当中一定要非常小心。如果不小心泄漏了我们的一些私密文档或图片,对于一个网站和网站管理者的影响可能非常巨大乃至毁灭性的。

因为我们的隐藏文档,可能是你的网站的备份文件,如果备份文件被下载,那么别人完全可以复制一个和你一样的网站出来,特别是wordpress用户在做备份时一定要注意这个问题。

当然,你的非公开网页地址可能是你的资源或资料文件夹说存放的地址,如果被别人看到,可能你的网站的需要收费的资源都被别人无偿得占有了。

所以作为一个网站设计者一定要重视这个问题,下面来说下我的个人建议。

二、防止搜索引擎过度Digg方法与建议

1.最好能够给网站建立网站地图,并且在网站首页中给网站地图页面添加链接地址。

2.向google提交XML网页地图。网站管理员可以通过google网站管理员工具提交XML地图或者.gz地图。

3.wordpress用户可以通过安装wordpress XML地图生成器来自动生成XML地图。XML地图生成器在你发表了新的文章时,会自动通知搜索引擎,并且提交你的文章地址。

4.改写robot.txt。通过在网站根目录改写robot.txt,来指导搜索引擎的蜘蛛爬行,可以有效的防止隐藏网页和文件被发掘。当然,和可以添加哪些文件地址不能被Robot访问,可以有效防止搜索引擎Digg。

5.特别的指出,wordpress用户添加了新页面后,其实是有链接存在的,即使你没有给新页面添加链接。所以,如果那个新页面是你隐藏或者不要的,最好建议能够及时删除掉。

6.网站更新后要注意通过查看源码,开是否有异常网页活文件链接地址存在,如果有,一定要及时删除。

7.及时删除不必要的文件和敏感性文件。这一点是最重要的,删除了,自然就不会被Digg了。

当然,现在的Digg工具非常多,例如火车头采集器等,上面的方法能够防止住搜索引擎的过度Digg,至于软件采集网页和人工发掘网页还需要网站管理员多对网页进行维护才行。

http://it.dengchao.org
声明: 本文采用 BY-NC-SA 协议进行授权. 转载请注明转自: 注意!防范搜索引擎过度Digg
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.