百度提交 socket 读写错误完美解决方案及心得


在做此网站过去已有5个多月了,从一开始的懵懵懂懂,到现在能解决大多数问题真的是经历了特别多的问题。最起初搭建此博客时先是网页源码的问题,初始安装程序500多kb,穿到网络服务器空间不知道如何安装,后来才明白安装文件要添加后缀install.php才能正确通过index.php进入install安装页面,一开始需要选着数据库类型,设置数据库的账号以及密码端口,每到不会的地方先去百度,然后实在搞不懂就去问空间商,空间商有时候也是搞不懂这网站的源码,搭建完成网站之后出现各种大大小小的问题,比如添加备案号就会引起mysql的链接错误之类的问题,瞎猫碰到死耗子,换了一个服务器之后他又好了,但是我一致还是认为是站点源程序的问题,苦苦寻找,更改数据库的字段,选择pho链接方式等,都无济于事,只要添加公安备案号之后,站点直接500崩溃,这一点迷了我1个多星期,后来找源码作者也是没解决问题,所以出现问题不要先找眼前的问题,先把最基本最初始的问题解决才能完善整个程序的搭建。
在一开始正儿八经注册的域名是byteamone.后缀,因为第一次嘛选了一个长的,之后再想起来注册短位byteam域名的时候才发现已经被别人注册了,花50大洋又在别人手里买回来,幸好不是域名贩子,只是对网络感兴趣的高中生,才那么容易的买了回来,当时这位同学还很惊讶的问我,这域名我才买了两个月花了20多,你这50买我的我感觉我占了大便宜。哈哈
byteam的来历始于我初中的时候,那时刚刚接触到网络这一圈子,那时FD抓包,cf外挂,各种代挂免流兴起的时代,看着网络上那么多以往没有见过的东西,就萌发出自己也要做一个圈子的想法。我的QQ名字在我小学的时候注册的,名称也很沙雕不在提起了,但是在网络上偶然看到一段话“久不遇,久不愈”那是年少的我感觉这段话还挺深沉挺有意义的,于是就顺其自然成为了我的QQ名字,在17年QQ更新时,限制了qq名称的长度,直接把这一句话变成两个字“不遇”用了许久后创建了我的第一个小圈子群“BY网络”,当时也申请了刚出来的公众号,就叫不遇娱乐,不过在前几年学业繁忙时忘记了维护此公众号,于是被冻结废弃了。最初我群名称是web网络,然后被人耻笑我不懂web,然后发加壳的远控软件整我,记忆犹新啊!从这时起就奠定了我之后要学习计算机的道路。
整合一些使用 Typecho 一段时间发现的问题:搭建时要选着带有数据库的空间商,小白的话尽量不要买一些售后难不解答问题的商家(这一点很重要,决定了你能在哪儿找出问题),php html语言不要求一定会,但是结构和用法一定要清楚一些,毕竟php是最简单的语言了,搭建完成完成后先熟悉一下每个php文件的作用,便于日后修改,不要以为搭建好就完事了,里边内在的东西多了去的,毕竟是极简化的博客程序,集成了作者团队多年的心血,说起来用十全十美减掉一来形容吧!

爬虫问题:出现最多的问题socket访问错误(这是我遇见最多的),粗鲁甚至无用的解决办法是不断的重复提交,查百度,问空间商,但是这些都解决不了问题,找百度提交客服?算了吧 你能找到入口算我输,就这一个问题,够我琢磨好多周,做伪静态,做https,反复的解析删除域名,对于这个问题都是没有解决方法。我的另一个站点也是访问失败,于是在极度郁闷的情况下我把ftp内容全部清空,上传了一个简易导航页,没有web.config,也没有.htaccess伪静态配置文件,更没有robots.txt爬虫权限指引(以上都是我为了解决爬虫问题通过百度设置的),没有了这些东西只有一个简单的index.html文件, 它就爬成功了,
错误提示为
抓取网址:http://byteam.cn/
抓取UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
抓取时间:2021-03-23 00:19:44
网站IP:47...222 已反馈,预计几分钟内完成更新
下载时长:3.008秒
抓取异常信息:socket 读写错误
这几段字看到无数遍,看一次恼一次,而且关于socket读写错误百度是没有给出响应的解决办法,查百度也就只能给提供是空间商的原因,安全狗,防火墙,360,金盾,ip黑名单之类,我用的空间是windows server2016,根据空间商那边给出的答复他们没有使用任何工具,防dd防cc的都没开,(也是很神奇啥都没有,毕竟挺便宜的哈),换服务器,检测都没解决问题,直到今天,使用另一个网站做清空处理,成功抓取之后,才明白,在百度那边是有缓存的,你域名更换过服务器ip之后,它显示的还是你第一次所绑定的域名,你要清除缓存,必须全面性的更换目录所有文件夹,并且把https强制跳转给关闭,当前域名站定可访问,然后在百度提交里面的站点管理把该站点删除,然后在空间商解除域名绑定,删除域名的dns解析,等待使用cmd ping域名提示访问不到主机之后,添加站电到百度提交,如果是http就选http的,反之相同,之后在使用主域名测试一下抓取诊断,如果是加过ssl证书并且强制https 的先去https认证,再抓取诊断,然后你就会发现抓取https字段和200行html内容成功了,而且ip也换了,这就意味着爬虫成功识别你的站点,下一步就是把你需要安装的站点源程序防盗web或者www根目录,再抓取,即可成功。经过测试,大部分人第一次抓取的时候都会显示抓取失败,因为你源码的时钟还没有缓过来,再重新抓取一遍即可成功。最好添加站点地图sitemap.xml使用sitemap自动抓取提交,这样上百度的seo收录就会更快一些。
这大概是关于百度爬虫抓取第一个最详细的教程,根据所使用的建站环境而言,也许加油不同的解决方法,但是关于百度的咱已经拿捏了,后续有什么问题还会再及时更新。

声明:ByTeam|路人|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 百度提交 socket 读写错误完美解决方案及心得


且听风吟,等待花开