bokee.net

网络营销/推广工作者博客

正文 更多文章

与Googbot的第一次约会

子域名和子目录

原文地址:子域名和子目录

作者:Matt Cutts  Google反垃圾网站组的带头人

PubCon 会议即将闭幕的时候,我注意到很多文章在讨论 Google 对子域名和子目录的处理办法。我想在这里更详细探讨这个话题,以把我的观点表达清楚。

从历史上看,子域名和子目录几乎是同一时间开始使用的。顺便提示一下,你可以从这个例子:subdomain.example.com/subdirectory/  看出子域名和子目录的概念。其中子域名是“subdomain”,子目录是“subdirectory”。如果你还不清楚,你可以阅读一下我的文章:关于URL组成部分的指南

(夫唯:以下内容是在不改变原文意思的基础上分点描述,以更条理,方便阅读和理解)

子域名和子目录:

  • 通常,一个子域名是一个域名系统(DNS)的别名,或者叫二级域名。对于不是很熟悉 “CNAME”概念的网络管理员新手来讲,子域名的设置可能有点难度。子域名可以分开管理:
    • 这对你来说也许是个好事:如果你想转移你网站的一部分,你可以使用DNS来和子域名脱钩。
    • 但也可能是个头疼的事:DNS的设置相当麻烦,不像使用子目录一样仅仅使用几个命令就可以建立或移动子目录。
  • 如果你把你的内容放在子目录里,通常的原则是所有内容和代码都存放在同一空间里。这可以使查找/编辑/更改代码变得很容易。同时,把代码从一个地方移到另一个地方也比较容易。
  • 以我为例,当我开始建我的博客时,我决定用一个子目录(mattcutts.com/blog/),仅仅是想使事情变得简单。

 几年来,Google 使用了一个所谓“密集主机(host crowding)”的算法,指的是:对一个域名的每个主机名(hostname)或子域名,Google 最多显示两个结果。

从一个子域名内显示1-2个结果,这种办法一直运行非常好,但也有网友向我们提出这样的投诉:对某些类型的关键词(如生僻关键词、关键词短句或长尾关键词等),Google 的搜索页面上可能出现很多结果都来自同一个域名。在过去几个星期里,我们改变了我们的算法,使这一现象不太可能再发生。

但这一变化并不会彻底改变有些搜索结果全部来自同一域名的情况。如果某个域名相关性确实非常强,我们仍可能从那个域名中返回多个结果。举例来讲,如果一个用户搜索[ibm],用户可能确实喜欢并想看到从 ibm.com 的结果。注意:我们的算法变化是一个相当微妙的过程,并没有影响到我们绝大部分的搜索结果。

对子域名和子目录,我个人更喜欢子目录。这是因为子目录为我的大部分内容提供了方便。一个子域名可有效分离出完全不同的内容。例如,Google为完全不同的产品使用子域名,例如 news.google.com 或 maps.google.com。如果你是一个网络管理员或 SEO 新手, 我建议你使用子目录,直到你对你的网站结构有足够的信心。在这一点上,您将可以对你的网站有更好的理解,从而作出正确的决定。

关于URL组成部分的指南

原文地址:Talk like a Googler: parts of a url

作者:Matt Cutts   Google反垃圾网站组的带头人

让我们来解剖一个 URL 的所有部分。我将告诉你,在 Google 通常所涉及的分别指 URl 的哪些不同部分 。这是一个有效的 URL,并包含很多元素:

http://video.google.co.uk:80/videoplay?docid=-7246927612831078230&hl=en#00h02m30s

以上 URL 的组成元素分解:

  • 传输协议是:http,类似的协议还包含:https,ftp, etc。
  •  主机或主机名:video.google.co.uk 。
  • 子域名是:video。
  • 域名是:google.co.uk。
  • 顶级域名(TLD)是:uk。uk 指的是国家顶级域名(ccTLD)。比如:google.com 其中顶级域名是 com。
  • 二级域名(SLD)是:com.uk。
  • 端口:80,这是 web 服务器的默认端口。其他的端口也是允许的,比如:web 服务器还可以听端口8000。当端口是80 时,很多人放空不写。
  • 路径:/videoplay。路径通常指一个文件或 web 服务器上的一个位置。如:/directory/file.html 。
  • 以上 URL 包含参数。参数名字是 docid,参数的值是-7246927612831078230。URLs 可以有很多参数。参数以问号(?)开始,以(&)隔开。
  • 看到了“#00h02m30s”了吗?这称为一个字符串或一个命名锚链。字符串过去通常指网页文件中的一个内部片段。在这个例子中,这个命名锚链的意思是“2分30秒后跳转到视频”。我现在想起来,Google 通过移除字符串以实现 URL 标准化。

 什么是静态 URL 或动态 URL?技术上,我们认为静态 URL 指的是服务器返回一个页面时不需要进行任何数据库操作。动态 URL 指,在返回页面之前,服务器需要进行相应的运算。

一些人通过问一个问题来简单区别静态 URL和动态 URL:“这个URL 中有没有问号(?)”。如果有问号,则一般认为是动态 URL;相反,则一般是静态 URL。当然,这不是一个硬性而有效的规则。比如,http://www.seowhy.com/26_87_zh.html  (译者按) 这个URL 看起来像是静态的,但它却需要 web服务器来处理。

与Googbot的第一次约会:标头和压缩

本文翻译自:First date with the Googlebot: Headers and compression

谷歌机器人 -- 多么神奇的梦幻之舟!他了解我们的灵魂和各个组成部分。或许他并不寻求什么独一无二的东西;他阅览过其它数十亿个网站(虽然我们也与其他搜索引擎机器人分享自己的数据:)),但是就在今晚,作为网站和谷歌机器人,我们将真正地了解对方。

我知道第一次约会的时候,过分地分析从来就不是什么好主意。我们将通过一系列的文章,一点点地了解谷歌机器人:

我们的第一次约会(就在今晚):谷歌机器人发出的数据标头和他所留意到的文件格式是否适于被进行压缩处理;
判断他的反应:响应代码(301s、302s),他如何处理重定向和If-Modified-Since;
下一步:随着链接,让他爬行得更快或者更慢(这样他就不会兴奋地过了头)。
今晚只是我们的第一次约会……

***************
谷歌机器人: 命令正确应答
网站: 谷歌机器人,你来了!
谷歌机器人:是的,我来了!

GET / HTTP/1.1
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Accept-Encoding: gzip,deflate

网站: 这些标头太炫了!无论我的网站在美国、亚洲还是欧洲,你都用同样的标头爬行吗?你曾经用过其他标头吗?

谷歌机器人: 一般而言,我在全球各地所用的标头都保持一致。我试图从一个网站默认的语言和设定出发,搞清楚一个网页究竟长得什么样。有时候人们的用户代理各不相同,例如Adsense读取使用的是“Mediapartners-Google”:
User-Agent: Mediapartners-Google

或者对于图像搜索:
User-Agent: Googlebot-Image/1.0

无线读取的用户代理因运营商而异,而谷歌阅读器RSS读取则包含了订阅者数量等额外信息。

我通常会避免Cookies(因此不存在所谓“Cookie:”标头),因为我并不希望与具体对话有关的信息对内容产生太大的影响。此外,如果某个服务器在动态URL而不是Cookies上使用对话ID,通常我都能识别出来,这样就不用因为每次对话ID的不同而成千上万遍地重复爬行同一个网页。

网站:我的结构非常复杂。我是用许多类型的文件。你的标头说:“Accept:*/*”。你会对所有的URL进行收录,还是自动过滤某些文件扩展名?

谷歌机器人:这要取决于我想找什么。

如果我只是对常规的Web搜索进行检索,当我看到指向MP3和视频内容的链接,我可能不会下载这些东西。类似地,如果我看到了一个JPG文件,处理方法自然 就与HTML或者PDF链接有所区别。例如JPG 的变动频率往往比HTML低很多,所以我不太经常检查JPG的变动,以节约带宽。同时,如果我为谷歌学术搜索寻找链接,那么我对PDF文章的兴趣就会远远高于对JPG文件的兴趣。对于学者而言,下载涂鸦绘画(例如JPG),或者是关于小狗玩滑板的视频,是容易让他们分散注意力的,你说对吗?

网站:没错,他们可能会觉得被打扰到了。你的敬业精神令我佩服得五体投地。我自己就喜欢涂鸦绘画(JPG),很难抗拒它们的诱惑力。

谷歌机器人:我也一样。实际上我并不是一直都在做学问。如果我为搜索图像而爬行,就会对JPG非常感兴趣,碰到新闻,我会花大力气考察HTML和它们附近的图像。

还有很多扩展名,例如exe、dll、zip、dmg等,它们对于搜索引擎而言,既数量庞大,又没有多大用处。

网站:如果你看到我的URL“http://www.example.com/page1.LOL111”,(呜噎着说)你会不会只是因为里面包含着未知的文件扩展名就把它拒之门外呢?

谷歌机器人: 网站老兄,让我给你讲点背景知识吧。一个文件真正下载完成后,我会使用“内容—类别”(Content-Type)标头来检查它属于HTML、图像、文本还是别的什么东西。如果它是PDF、Word文档或Excel工作表等特殊的数据类型,我会确认它的格式是否合法有效,并从中抽取文本内容。但是你永远也不能确定里面是否含有病毒。但是如果文档或数据类型混乱不清,我除了把它们扔掉之外,也没有什么更好的办法。

所以,如果我爬行你的“http://www.example.com/page1.LOL111”URL并发现未知文件扩展名时,我可能会首先把它下载。 如果我从标头中无法弄清内容类型,或者它属于我们拒绝检索的文件格式(例如MP3),那么只能把它放在一边了。除此之外,我们会接着对文件进行爬行。

网站:谷歌机器人,我很抱歉对你的工作风格“鸡蛋里挑骨头”,但我注意到你的“Accept-Encoding”标头这样说:
Accept-Encoding: gzip,deflate

你能跟我说说这些标头是怎么回事吗?

谷歌机器人:当然。所有的主流搜索引擎和WEB浏览器都支持对内容进行gzip压缩,以节约带宽。你或许还会碰到其它的一些类型,例如“x-gzip”(与“gzip”相同),“deflate”(我们也支持它)和“identity”(不支持)。

网站:你能更详细地说说文件压缩和“Accept-Encoding: gzip,deflate”吗?我的许多URL都包含尺寸很大的Flash文件和美妙的图像,不仅仅是HTML。如果我把一个比较大的文件加以压缩,会不会有助于你更迅速地爬行呢?

谷歌机器人:对于这个问题,并没有一个简单的答案。首先,swf(Flash)、jpg、png、gif和pdf等文件格式本身已经是压缩过的了(而且还有专门的Flash 优化器)。

网站:或许我已经把自己的Flash文件进行了压缩,自己还不知道。很显然,我的效率很高喽。

谷歌机器人:Apache和IIS都提供了选项,允许进行gzip和deflate压缩,当然,节省带宽的代价是对CPU资源的更多消耗。一般情况下,这项功能只适用于比较容易压缩的文件,例如文本HTML/CSS/PHP内容等。而且,只有在用户的浏览器或者我(搜索引擎机器人)允许的情况下才可以使用。 就我个人而言,更倾向于“gzip”而不是“deflate”。Gzip的编码过程相对可靠一些,因为它不断地进行加和检查,并且保持完整的标头,不像 “deflate”那样需要我在工作中不断推测。除此之外,这两种程序的压缩算法语言都很相似。

如果你的服务器上有闲置的CPU资源,可以尝试进行压缩(链接:Apache, IIS)。但是,如果你提供的是动态内容,而且服务器的CPU已经处于满负荷状态,我建议你还是不要这样做。

网站:很长见识。我很高兴今晚你能来看我。感谢老天爷,我的robots.txt文件允许你能来。这个文件有时候就像对自己的子女过分保护的父母。

谷歌机器人:说到这里,该见见父母大人了——它就是robots.txt。我曾经见过不少发疯的“父母”。其中有些实际上只是HTML错误信息网页,而不是有效的robots.txt。有些文件里充满了无穷无尽的重定向,而且可能指向完全不相关的站点。另外一些体积庞大,含有成千上万条单独成行、各不相同的 URL。下面就是其中的一种有副作用的文件模式,在通常情况下,这个站点是希望我去爬行它的内容的:
User-Agent: *
Allow: /

然而,在某个用户流量的高峰时段,这个站点转而将它的robots.txt切换到限制性极强的机制上:
# Can you go away for a while? I'll let you back
# again in the future. Really, I promise!
User-Agent: *
Disallow: /

上述robots.txt文件切换的问题在于,一旦我看到这种限制性很强的robots.txt,有可能使我不得不把索引中已经爬行的该网站内容舍弃掉。当我再次被批准进入这个站点的时候,我不得不将原先的许多内容重新爬行一遍,至少会暂时出现503错误相应代码。

一 般来说,我每天只能重新检查一次robots.txt(否则,在许多虚拟主机站点上,我会将一大部分时间花在读取robots.txt文件上,要知道没有 多少约会对象喜欢如此频繁地拜见对方父母的)。站长们通过robots.txt 切换的方式来控制爬行频率是有副作用的,更好的办法是用网站管理员工具将爬行频率调至“较低”即可。

谷歌机器人: 网站老兄,谢谢你提出的这些问题,你一直做得很不错,但我现在不得不说“再见,我的爱人”了。

网站:哦,谷歌机器人…(结束应答):)

VIA SEOWHY.COM

分享到:

上一篇:网站SEO常见疑难杂症

下一篇:SEO优化ABC

评论 (0条) 发表评论

抢沙发,第一个发表评论
验证码