Robots设置与SpamBrain系统之间的实战经验总结研究

网站robot.txt如何设置

robots.txt文件是网站用来指示搜索引擎爬虫如何访问和抓取网站内容的一个文本文件。其语法相对简单，但作用重大。例如，我们可以看到一个基本的robots.txt文件例子： # robots.txt文件开始 # 来自 http://www.361ku.com 的 robots.txt文件 # 所有蜘蛛将爬取此域名 User-agent: * Disallow: /security/ Disallow: /admin/ Disallow: /admin.htm # robots.txt文件结束注释行以#号开头，帮助阅读者理解文件内容。User-agent字段指定搜索蜘蛛的名称，*表示对所有蜘蛛生效。Disallow字段则用于指定不允许蜘蛛抓取的目录或文件。接着，我们来看一些具体的robots.txt用法实例。若允许所有的robot访问，可以设置： User-agent: * Disallow: 或者创建一个空文件： /robots.txt 若禁止所有搜索引擎访问整个网站，则应设置： User-agent: * Disallow: / 若禁止访问网站的几个部分，比如01、02、03目录，则应设置： User-agent: * Disallow: /01/ Disallow: /02/ Disallow: /03/ 若禁止某个特定搜索引擎访问，如BadBot，则应设置： User-agent: BadBot Disallow: / 若只允许某个特定搜索引擎访问，如Crawler，则应设置： User-agent: Crawler Disallow: 以上就是robots.txt文件的基本用法和设置技巧，合理使用可以帮助优化网站的SEO效果。

nginx