最近将博客从 PJBlog 转移到 WordPress,因此对专门学习了 WordPress 中怎样设置 robots.txt。网站的 robots.txt 文件的很重要,它可以让如 Google、百度等搜索引擎有针对性的抓取网页。
robots.txt 是什么
什么是 robots.txt?它是搜索引擎的蜘蛛在来到网站首先要查看的一个文件。因为网站的有些内容禁止被搜索引擎抓取,比如网站的模板文件、CSS 文件、Javascript 文件、登陆页面等等、这时候就要设置一些 robots.txt 文件来使引擎蜘蛛遵循这一些协议。
编写 robots.txt 文
robots.txt 文件的存放位置在网站的根目录下。默认没有设置,Wordpress 会生成一个动态的 robots.txt 文件。查看一个网站的 robots.txt 文件方法也很简单,只要在地址栏输入以下路径: 你的域名 /robots.txt。注意文件名一定要全部小写。下面是我的博客中的 robots.txt 文件。
User-agent: *
Disallow: /wp-*
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /page/
Disallow: /page/*
Disallow: /*/*/page/
Disallow: /page/1$
Disallow: /?s=
Disallow: /tag/
Disallow: /comments
Disallow: /*?replytocom=
Disallow: /date/
Disallow: /feed
Disallow: /*/*/feed
Disallow: /trackback/
Disallow: /*/*/trackback
Disallow: /*.php$
Disallow: /*.css$
Disallow: /robots.txt
Disallow:/services/
Disallow:/ZendFramework/
Sitemap: http://www.riafan.com/sitemap.xml
Sitemap: http://www.riafan.com/sitemap.xml.gz
警告:以上仅供大家参考,不同的网站还有具体的考虑。有的出于网站安全、隐私的考虑要隐藏一些文件。有的则是注重 SEO,通过 robots.txt 提高有效页面的收录,降低重复,相似页面的收录。建议大家可以试一试 Google 网站管理员工具来检验网站的 `robots.txt 是否健康。
评论 (0)