阿里虚拟主机频繁被百度搜索机器人大量消耗资源

整个七月被百度搜索机器人折腾得网站频繁的爆出服务器资源不足,短短30天内因为大量消耗资源被关闭多达4次,没法好好得展示。

阿里虚拟主机频繁被百度搜索机器人大量消耗资源

一个小小的个人网站,没有多大影响力,应该没有攻击价值才对。持续使用了好几年的虚拟主机和网站代码,要奔溃也早就奔溃了。

根据阿里的提升邮件校验了代码没有被种木马也没用被其他人登陆篡改,应该不是程序的问题。查看服务器流量监控,发现后台显示数据远远大于前台网页浏览数据统计结果。这说明内容太受欢迎被大多数人浏览的情况是不存在的,很大可能是被采集或者被盗链了。进一步看文件和多媒体图片显示,下载次数也不大。

最后为了彻底改正问题求助阿里管理员帮忙,阿里人员分析完提交的网站日志后指出两个问题,PV数量猛增,但用户很少,大量的资源被少数IP使用了,而且网站被关闭前突然出现陡峭的PV高峰。筛查后来top10的IP发现地区很集中,这个很可能是百度搜索机器人或者采集网站的行为。

阿里虚拟主机频繁被百度搜索机器人大量消耗资源

 

为了解决这个问题只好采取极端手法,部署robots.txt 和.htaccess文件。

robots.txt 设置把几家知名搜索引擎(Baiduspider Sosospider sogou YodaoBot Googlebot)全档掉,只留首页给它爬,看他们还做不做恶。

# robots.txt generated at http://liujinyuan.com.cn
User-agent: Baiduspider
Disallow: /
Allow:/index.php
User-agent: Sosospider
Disallow: /
Allow:/index.php
User-agent: sogou spider
Disallow: /
Allow:/index.php
User-agent: YodaoBot
Disallow: /
Allow:/index.php
User-agent: Googlebot
Disallow: /
Allow:/index.php
User-agent: *
Disallow:
Disallow: /
Sitemap: http://liujinyuan.com.cn

.htaccess文件限制top 10 IP,不管是真用户还是搜索引擎,统统不让访问。

Order allow,deny

deny from 112.95.251.214

deny from 106.120.173.111

deny from 218.94.105.46

deny from 60.208.164.97

deny from 223.112.11.66

deny from 117.136.79.165

deny from 123.232.227.220

deny from 221.0.18.226

allow from all

部署完后服务器重新开启几天运行来看,流量还算稳定,再没有爆资源占用过大的事情。个人猜想,阿里服务器和搜索引擎的服务器物理地址在今年搬得更近了,抓取资源越来越频繁,看来以后只有长期这样下对策缓解虚拟主机资源负载问题保证网站正常运转。

另外,在使用.htaccess文件的时候发现有一个导致wordpress虚拟html页面不显示的问题。每次更新完.htaccess文件,虚拟路径http://hostname/post/%postname%.html需要重新设置才能正常打开页面,否则会显示404 error。这个也许是wordpress 程序的一个小bug。


			

您可以选择一种方式赞助本站

支付宝转账赞助

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

图片 表情