bokee.net

网络营销/推广工作者博客

正文 更多文章

网站SEO常见疑难杂症

robots.txt文件有什么必要?

robots.txt是什么?

有没有想过,如果我们某个站点不让百度和google收录,那怎么办?

搜索引擎已经和我们达成一个约定,如果我们按约定那样做了,它们就不要收录。

这个写约定的的文件命名为:robots.txt。

robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。

关于robots.txt一般站长需要注意以下几点:

  1. 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
  2. 必须命名为:robots.txt,都是 小写robot后面加"s"。
  3. robots.txt必须放置在一个站点的根目录下。如:通过 http://www.seowhy.com/robots.txt 可以成功访问到,则说明本站的放置正确。
  4. 一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
  5. 观察这个页面并修改为自己的: http://www.seowhy.com/robots.txt 
  6. 有几个禁止,就得有几个Disallow函数,并分行描述。
  7. 至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写: Disallow: /  (注:只是差一个斜杆)。

补充说明:

User-agent: *  星号说明允许所有搜索引擎收录

Disallow: /search.html   说明 http://www.seowhy.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php?   说明类似这样的页面http://www.seowhy.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

Robots.txt 文件应放在哪里?

什么是robots.txt文件?

搜索引擎机器人通过链接抵达互联网上的每个网页,并抓取网页信息。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。当我们的网站有一些内容不想被搜索引擎收录,我们可以通过设置robots.txt文件告知搜索引擎机器人。

如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空。

Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。

例子:

http://www.seowhy.com/robots.txt    有效

http://www.seowhy.com/bbs/robots.txt     无效

如果你不能控制根目录的 robots.txt,则你可以通过在子目录网页中使用标签阻止网页被收录

从SEO的角度,robots.txt文件是一定要设置的,原因:

  1. 网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。
  2. 网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。
  3. 一些没有关键词的页面,比如本站的这个页面http://www.seowhy.com/search.html,屏蔽掉更好。
  4. 一般情况下,站内的搜索结果页面屏蔽掉更好。

为什么PR值在浏览器插件上显示为0?

假设你的站点域名是www.seowhy.com

先看下你网站“首页”所对应的链接是www.seowhy.com或是www.seowhy.com/index.htmlwww.seowhy.com/index.php或其他。如果你的域名pr值大于0,而首页在浏览器pr值插件上显示为0,则是因为你网站首页链接设置问题。现在基本上80%的网站,因为没有这个意识,网站的“首页”往往不是设置为域名,而是以index等为后缀。

注意点:

1、修改网站首页的链接为域名。

2、首页只有一个链接,在任何页面都不要以index.php、home.html或index.html为链接后缀链接向首页。否则会导致首页PR值被分散。

3、友情链接时,注意查看对方链接的应该给是主域名(首选域)。

如何查看网站被百度抓取的情况?

百度用于抓取网页的程序叫做Baiduspider - 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码

查看日志的方式:

通过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。

因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。

日志内容如下:

61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"   

分析:

GET /bbs/thread-7303-1-1.html   代表,抓取/bbs/thread-7303-1-1.html 这个页面。

200  代表成功抓取。

8450  代表抓取了8450个字节。

如果你的日志里格式不是如此,则代表日志格式设置不同。

很多日志里可以看到 200 0 0和200 0  64 则都代表正常抓取。

抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。

在网站出现问题的情况下,通过查看网站日志,查看网站的HTTP返回值是否正常,这篇文章总结了常见的HTTP返回值:http://www.seowhy.com/1_28_zh.html

我的站怎么就不被收录呀?

这个问题,被大家问过无数遍。我也回答了不下百遍。 下面是解决方案:

1、查下你的日志,在日志里搜索这几个:“baidu”“google”“yahoo” ;
2、从最近的日志里开始找,如果没有,再往前找一个;
3、日志中有这几个结果:
    3.1、如果日志里,从来没有出现过这几位老大的机器人( Robot),那说明你没有提交成功或者是因为你发了太多spam(垃圾)链接被搜索引擎直接放入垃圾桶检索库了。 如果你的域名不是“一手的”,则不在此列。

      办法是:再提交,然后是等待,可能是一年之后。如果你发了太多spam,你可以考虑换一个域名了。

     3.2、找到baidu们了,看看昨天的日志里还有:"baidu"吗?还有的话,说明百度已经收录你了,只是还没展示出来。过几天吧。如果已经过了快2个月,还没展示出来,需要看看baiduspider的那行代码了。

     3.3、如果以前的日志里有,后来的没有,最大的可能是你的内容不符合规则。你的站将一直不展示。(那为什么有些站点内容和我一样,却可以搜索到?搜索引擎一般都会给一个时间,对于已经被收录的站点,不会一出现禁词就封掉,而是再观察一段时间。当然,也可能是搜索引擎糊涂了。) 这个情况也有一点可能是你的站点做得不是很好。通过这篇相关的文章获得帮助:

我的站被收录了两次,被封掉两次,怎么办?

菜鸟?还不懂?往下看:

怎么看日志?
通过ftp去看你的网站根目录下面是否有一个包含log的文件夹。如果实在没有找到,问问虚拟主机商。
把它拿到本地
解压它
里面是一个记事本文件,
这个记事本的文件名就是日志的时间

还不懂?
无语

这几个文章或许对你也有帮助:
 

访问本页面,您的浏览器需要支持JavaScript,怎么回事?

百度和google里面搜索我的站点,出现:“访问本页面,您的浏览器需要支持JavaScript”。到底怎么回事?

问题如:

这几天发现在百度和GOOGLE里搜索自己的站点时都显示:访问本页面,您的浏览器需要支持JavaScript... 前几天还是正常的,网页都是纯的HTML,根本不存在浏览器是否支持的问题,请问是什么原因造成的呢?

答案:

我进行了一系列的分析,发现类似你这种情况的网站还很多。通过搜索“访问本页面,您的浏览器需要支持JavaScript”查看其它网站和你的相似点去寻找原因。

目前我接触的几个站点发生这个情况的主要原因是,站点被病毒攻击了。请联系你的主机托管商配合处理。

这一段时间,这个情况出现很频繁。请尽快处理,以免对你站点的SEO造成影响。

查看网页源代码全是乱码,而页面显示正常,什么回事?

会不会影响搜索引擎(百度)收录?答案是:不会!

如果页面显示正常,查看网页源代码发现是乱码,这个情况一般来说是浏览器的问题。比如,你用IE看源代码是乱码,但用firefox看源代码就不会是乱码。(搜索引擎又不是用浏览器看网页,更不是用IE。)

但乱码还是挺讨厌的,怎么办?

这个根据很多网站的具体情况不同,处理办法也不同。原因一般是:1、UTF-8编码规范是将3个连续的字符计为单个字符,如果你在页面上加载了某一个长度不被3整除的字符串,那么页面就会出现乱码。2、一些多语言系统,如Joomla、manbo、phpfag等,如果你把汉字写入源代码,就会出现源代码是乱码的现象。

如果原来是正常的,你用了某个插件而导致出现这个情况,那么往往是那个插件中涉及到的提取字符长度问题。修改下即可。

VIA SEOWHY.COM

分享到:

上一篇:详解Google Analytics

下一篇:与Googbot的第一次约会

评论 (0条) 发表评论

抢沙发,第一个发表评论
验证码