搜索引擎蜘蛛访问网站时会先看网站根目录下有没有一个命名为robots的纯文本文件,robots.txt用于指令搜索引擎蜘蛛禁止抓取网站某些内容或者指定允许搜索引擎抓取某些内容,如百度的robots文件位于: www.baidu.com/robots.txt
深圳网站制作认为,只有在需要禁止某些内容时,写robots.txt才有意义。robots文件不存在或者空文件都默认意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robots文件不存在时会返回200状态码及一些错误信息。而不是404状态码,还有可能会使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,放在根目录下。
深圳做网站实践得出结论,主流搜索引擎都遵守robots文件指令,robots.txt禁止抓取的文件搜索引擎将不再访问或者不抓取。但要注意,被robots文件禁止抓取的URL还是可能会出现在搜索结果中,只要有导入链接指向这个URL,
深圳建网站认为搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,但是可能一下几种形式还是会显示在搜索结果中:
1.只显示URL,没有标题,描述。谷歌通常这么处理。
2.只显示开放目录或者雅虎等重要目录收录的标题和描述。
3.导入链接的锚文字显示为标题和描述。百度通常这样处理。
总之,只要想让URL完全不出现在搜索结果中,需要使用页面上的meta robots标签。