刘益民中文网

营业时间:8:00 - 22:00

[转]Google补充材料研究及深入观察

五月 5, 2007, Posted by cike at 11:09 上午

Zac观点:

补充材料指的是URL+日期+网页快照

补充材料不是针对文件,不是针对网页,而是针对特定的URL+日期+网页快照。

什么意思呢?

首先,补充材料是某一个特定的URL,而不是一个网页或者一个文件。比如说xxx.com和www.xxx.com,一般来说是同一个文件,但是是两个不同的URL。这两个URL有可能其中一个是正常网页,另外一个却是补充材料。

补充材料是针对特定的日期所抓取的网页快照,也就是说即使是相同的URL,在Google数据库中有可能存在多个版本,其中一个版本是日期A所抓取的新的内容,这个URL+这个特定的日期和网页快照,可能是在正常的数据库中。而另外一个日期B所抓取的内容(同一个URL,比较老的内容),却可能是在补充材料数据库中。

所以同样一个URL在Google数据库中有不同版本,不同日期,新的内容可能在主数据库,老的内容可能在补充材料中。

最近经常有这种情况,你搜索一个特定的句子,这个句子在网页中实际上已经不存在了,但是在以前的版本中曾经存在过。这个时候那个老的日期的版本的URL可能会被返回,同时标为补充材料。

补充材料对排名的影响

这个问题就比较复杂,要具体情况具体分析。

像前面讲的,同一个URL可能出现在不同的数据库中,新版本的URL可能会出现在正常的主要关键词的搜索中。但是在其他关键词搜索中,它也可能出现在补充材料中。

如果你的网站有很多补充材料,有可能影响排名。但是如果这些补充材料都有一个相应的新的URL+日期+网页快照版本,对排名的影响就不大。如果这些补充材料没有新的版本,影响就比较大。

补充材料URL会不会被更新

会被更新,但是被重新抓取的频率要比较低。

当Google蜘蛛来抓取这个URL的时候,如果以前使它成为补充材料的那个原因已经不存在了的话,这个URL可能就被重新归入主数据库。

补充材料会存在多长时间

一般来说补充材料会继续存在长达一年或更长的时间。

不过出现补充材料并不是最大的问题,如果你的网站新版本已经都被重新抓取,就没关系了。

怎样避免出现补充材料

除了检查你的网站有没有造成补充材料的这些原因以外,链接可能会帮助很大。

Matt Cutts在回答一个帖子的时候曾经说过:

有补充材料现在不一定是件坏事。你的这个情况在我看来,只是缺少PR和链接的一个反映。你的首页已经在我们的主数据库中,但是你并没有多少链接。所以我认为你的网站并没有什么问题,只不过我们的索引数据库只能选择一部分文件,如果有更多的人链接到你的网站,我预期你的网页会回到主数据库。

枫林观点

一、什么是Google的补充材料?

Google补充材料大约是在2003年底,04年出这段时间,关于搜索结果的“补充材料”,在Google的网站上没有任何说明。Google的“补充材料”网页相当一个网页备份数据库,这个数据库与主索引数据库是互相独立的,当Google不能在其主索引数据库中找到匹配的的检索反馈结果时,才可能显示补充索引库中的网页。被纳入补充数据库的网页可以通过检索结果摘要信息后的“补充材料”文本标识轻松识别出来,英文网页的补充资料名称为“Supplemental Result”。

关于Google补充材料的定义,网上也有一些说法,与上述说法大同小异,在Google自己的网站管理员指南中所给的官方信息是这样写的:

补充网站是Google辅助索引的一部分。对辅助索引进行抓取的限制少于主要索引。例如,一个网址的参量可能使该网站无法被抓取到主要索引中,但仍可能被抓取到我们的补充索引里。

将网站包括其中的索引是完全自动的,没有任何方式可以选择或更改您网站的索引。请放心,包含网站的索引不会影响该网站的PageRank

二、为什么在Google中网站会出现补充材料?

1、新站可能会出现补充材料。新站域名的PR过低,页面外部链接比较少,一般比列入补充材料中做为对该页面的考察。

2、网站的各个内页之间相似度太高。网站内页通常由同一模板生成,因而除了网页主导航、菜单部分还有一些公共栏目,只剩下网页主体正文部分是不同的,如果这个主题部分的内容差异太小,极有可能一个或者多个相似的页面都被被纳入补充材料。

3、复制网页。上面说的是同一个站点内的不同网页的相似度过高而被纳入Google补充材料,这里的复制网页是指完全复制别人的网页,这样搜索引擎一般很难分辨哪个是原创,故其中一个可能被放入补充材料,当然某些时候,原创的内容可能成为替罪羊。

4、被删除了的页面,更换了域名的网页。被删除掉了,已经不存在的页面可能被列入补充材料,而如果能及时的做数据恢复,并做好相应的外部链接工作,一般可以从补充材料数据库转移到主搜索数据库中,外在表现为网页收录恢复正常。

5、服务器挂的时间过长。同4中的情况,服务器过长的停机,Google可能以为该页面已经不存在了,这些页面将被放入补充材料做为考察。

6、URL中参数过多。未实施静态化处理的动态网页(?的识别问题),如果参数设置不当,导致长达3-4个以上的参数,都属于参数过多。

7、垃圾链接过多。某些网页含有大量的来自留言本,blog留言或者群发获取的低质量的外部链接,或者外部链接与该页面缺乏内容上的相关性,该页面将可能被放入补充材料。

8、网页的点击距离过长或者孤立的页面。用户要浏览到这个网页需要多次的发生点击行为,还有一些页面完全的独立,该站中没有任何链接到该页面,该页面将可能被放入Google补充材料。

三、Google中现补充材料的查询方法?

同查询网站的收录情况一样,补充材料的查询,Google给出了查询命令:

site:abc.com *** -cba

其中:abc.com代表某个站点,当然也可换成www.cike.org或者http://www.cike.org之类的,不过几者查询的结果会稍有差别。

四、出现补充材料会对该产生什么影响?

网站出现补充材料如果过多,会直接影响到网站部分关键字的排名,间接影响到网站的流量,其中影响最大的就是页面的收录量了,出现补充材料以后,如果网站管理员不做任何补救措施,该页面的关键字的排名会逐渐的降低,直至排名消失,也就是Google网页备份数据库删除了改页面的索引数据,总之补充材料页面过多不是什么好的兆头,网站管理员在平时做网站诊断的时候应该时刻观察注意补充材料的多少,以作一些补救措施。

五、怎样才能有效防止网页进入Google补充材料?

1、对于过期的网页,不要直接的删除,可以用适当的话语做为描述,比如“此网页已过期”之类的话语。
2、尽量生成静态页面,可有效防止搜索引擎蜘蛛抓取难的问题。
3、URL地址的设计一定要注意参数,建议少用form的post传参数而用get,而且URL长度一定要尽可能地短,这包括减少目录深度、减少传参的数目、使用拼音来做为文件名。
4、改善链接状况,避免孤立页面的产生。
5、对复制、抓取过来的文章进行内容的修改和调整,减少页面的重复,降低页面之间的相似度。

六、怎样才可能恢复进入Google补充材料的网页?

1、增加该页面内部链接和外部链接。

2、针对二中分析的原因,找出该页面出现补充材料的原因,做相应的补救措施。

 

 

No comment yet.

Leave a Reply








Scroll to the top