问:
为什么我测试百度抓取会出现异常?有没有什么解决办法啊?
,为什么我测试百度抓取会出现异常?有没有什么解决办法啊?
答:您好,查看到蜘蛛访问是403,联系您对应的cdn提供商核实对应的是否拦截了蜘蛛爬行,
请核实您的回源设置,建议设置蜘蛛回??源到118.123??.7.208 ??,非??常感谢您长期对我司的支持!
问:域名没输入对, https://yun.ithuzhi.com 你给我回复的是有空格的。能不能帮忙解决一下问题。
问:我好几个站都在使用阿里云的CDN哦,先声明一下:我提出的这些问题没有一个是CDN造成的,包括我之前咨询的问题,之前咨询的问题我已经在代码处解决了。但是这个百度蜘蛛抓取失败的问题还希望能提供有用的信息。或者给个技术QQ联系方式我直接沟通。
答:您好,抱歉,不熟悉您的cdn架构,我司是模拟蜘蛛抓取出现异常情况,当前建议您可把域名先取消cdn设置,把域名做别名指向到ouyangoyys.gotoip3.com再测试下蜘蛛抓取情况,非常感谢您长期对我司的支持!
问:兄弟你好,403错误本质上是指由于服务器上文件或目录的权限设置导致的WEB访问错误。
因为我用贵公司的代理平台,设置不了所谓权限,能否帮忙设置一下目录权限?这个百度蜘蛛的事是和cdn没有什么关系的。
问:能否用这个地址测试一下百度蜘蛛抓取情况呢?http://ouyangoyys.gotoip3.com/
答:您好,抱歉,当前使用http://ouyangoyys.gotoip3.com/ 抓取测试也出现异常报错清空,核实目录权限是正常的,当前抓取报错已经向百度提交反馈,您可明天再重新抓取测试下,非常感谢您长期对我司的支持!
问:我用源站域名抓取也是失败的,可以排除cdn问题了,兄弟帮忙看一下原因。
问:嗯好谢谢
问:这么晚辛苦了
答:您好,抱歉,核实我司主机的二级域名是设置了禁止百度抓取的,当前使用您的域名验证抓取提示403,查看源站ip是您cdn的ip,请先取消cdn后再抓取试试,非常感谢您长期对我司的支持!
问:你好!最近几天我的站点页面链接异常,链接能正常访问,为什么百度抓取状态返回码是404?
是不是我站点的主机出现问题啊?
答:您好,
已这个时间为例,我们查了当时web日志127.0.0.1 – – [05/Jan/2018:12:12:31 0800] \”GET /zixun/251.html HTTP/1.1\” 301 536 \”-\” \”Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; http://www.baidu.com/search/spider.html)\”127.0.0.1 – – [05/Jan/2018:12:12:31 0800] \”GET /zixun/251.html HTTP/1.1\” 404 1252 \”-\” \”Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; http://www.baidu.com/search/spider.html)\”
当时百度有两台服务器同一秒访问的,一台正常,另一台不正常,我们查了服务器并没有拦截ip的情况,即使是拦截状态也不会是404,如果服务器当时是有问题的,那么两台百度蜘蛛服务器都应该抓不到内容才对,只能建议您联系百度反馈,让他们那边核查下,另外,我们也通过站长工具抓取多次测试均正常,目前无法得知百度出现404的原因,非常感谢您长期对我司的支持!