文档库 最新最全的文档下载
当前位置:文档库 › 新站快照与网站日志之间的关系

新站快照与网站日志之间的关系

新站快照与网站日志之间的关系
新站快照与网站日志之间的关系

实例论证:新站快照与网站日志之间的关系

上线一新站点,历时19天网站出现百度首页快照,同时核心关键词有了一定的排名。今天我们就来用这个案例来分析一下,新上线站点快照与网站日志文件之间的关系?

正文前还是要交代一下背景:成都笔记本维修网站https://www.wendangku.net/doc/6816609033.html,是一个起用了老域名的新站点,网站2012年9月2日正式上线,站点设置了404错误页与301跳转www域名,至2012年9月21日出现首页快照并收录为8,期间各大搜索引擎蜘蛛一直在爬行域名以前被收录的路径,导致网站一直处于反馈404的状态,那么我们是怎么熬过没有快照的这一段时光的呢?

不论在哪个站长类论坛的问答区,总是有很多这样的问题:“新站一般什么时候可以被收录,我的怎么一直没有收录呢?”、“请大神帮忙分析一下网站,上线两个月仍没有收录”、“现金支付求收录”……

做为一个SEOer,当自己的网站出现这样的问题时,有没有想过从自己网站入手找到解决问题的办法?正如上面交待的背景那样,我们这个站点起用的是被人用过的域名,从上线之日起,各引擎蜘蛛一直爬行的都是新网站不存在的路径,结果可想而之,网站对于蜘蛛来说一直是404和301的返回码状态。

我们做的网站前台完全是生成的静态网页,所以图上爬行的路径在本网站根本就不存在,所以返回大量的404与301码,看到这些本不该出现的状态码,心里那个急呀。实说实说,一般正常的新站点上线,只要网站结构合理,域名是干净没有被使用过的,首页内容充实,一般三天到七天左右都会有快照出来的。

从9月2日起,飞卖品工作室就一直在分析网站每天的日志,日志文件里包含了太多隐性的信息,特别是在新站点上线初期,分析研究日志文件是非常有必要的。虽然百度官方的站长工具有过说明,百度有一套自己的程序,可以识别域名是否更换了主人,但这一论调,站长们普遍表示不相信,否则也不会大量的站长只要遇到K站就弃用被K域名了。而且,百度官方也同样申明,站长可以向百度提交错误路径,已加快百度删除失效页面的速度,但问题是域名转手后,我们也没办法弄到原网站的真实收录数据呀,难道真的只能任由蜘蛛将原路径遍历一遍之后,等待它判断域名更换了主人吗?不是的,当然不是的,这个时候的你,应该主动出击!我们仍是用这个网站做研究,通过光年日志分析软件我发现特别是BaiDu Spider与Sogou Spider经常访问那些我网站上不存在的路径,于是根据统计出来的路径结果,我在robots.txt文件里做了如下设置:

Disallow:/vip/(禁止蜘蛛访问vip文件夹,因为该文件夹根本就不存在)

Disallow:/job/(禁止蜘蛛访问job文件夹,因为该文件夹根本就不存在)

Disallow:/other/(禁止蜘蛛访问other文件夹,因为该文件夹根本就不存在)

Disallow:/gongcheng/(禁止蜘蛛访问gongcheng文件夹,因为该文件夹根本就不存在)

Disallow:/product/(禁止蜘蛛访问product文件夹,因为该文件夹根本就不存在)

Disallow:/faq/(禁止蜘蛛访问faq文件夹,因为该文件夹根本就不存在)

Disallow:/news/*.php$(禁止蜘蛛访问news文件夹下的动态网页,因为该文件夹存在,但根本没有任何动态网页) Disallow:*.asp$(禁止蜘蛛访问任何扩展名为asp的文件)

Disallow:/*disp.php?id*(禁止蜘蛛访问任何包含了disp.php?id的文件)

Disallow:/*more.php?class_id*(禁止蜘蛛访问任何包含了more.php?class_id的文件)

Disallow:/*index.php?class_id*(禁止蜘蛛访问任何包含了index.php?class_id的文件)

Disallow:/*shopping.php?id*(禁止蜘蛛访问任何包含了shopping.php?id的文件)

Disallow:/*dis_job.php?id*(禁止蜘蛛访问任何包含了dis_job.php?id的文件)

Disallow:/*more_p.php?class_id*(禁止蜘蛛访问任何包含了more_p.php?class_id的文件)

为什么要这样设置,请结合上图来看,因为这些文件夹或路径根本就不存在于我的网站中,当然要屏蔽掉。

相关文档