前一篇文章imn5的爬虫,预览版,不支持搜索。支持webp格式图片下载(这个文件格式在其他的网站都没出现过)
本站为全网最新秀人机构写真,新出的作品为预览版一般在2个星期内更新高清完整版。高清版均采用1200高像素大图,且无别家的水印。本站不管手机还是电脑端均无广告。 —图片网站宣传语
前一篇文章imn5的爬虫,预览版,不支持搜索。支持webp格式图片下载(这个文件格式在其他的网站都没出现过)
本站为全网最新秀人机构写真,新出的作品为预览版一般在2个星期内更新高清完整版。高清版均采用1200高像素大图,且无别家的水印。本站不管手机还是电脑端均无广告。 —图片网站宣传语
C:\Users\obaby>F:\Pycharm_Projects\meitulu-spider\dist\xiurenji2\xiurenji2.exe **************************************************************************************************** 秀人集爬虫 [更新版] Verson: 23.05.13 当前服务器地址:https://www.xiuren5.vip Blog: http://oba.by 姐姐的上面的域名怎样啊?说不好的不让用!!哼!! **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -r <random index category list> -c <single category url> -e <early stop, work in site crawl mode only> -s <site url eg: http://www.xiurenji.vip (no last backslash "/")> ****************************************************************************************************
精品美女吧 爬虫 Verson: 23.04.16 Blog: http://www.h4ck.org.cn **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> -e <early stop> Arguments: -a <download all site images> -h <display help text, just this> Option Arguments: -p <image download path> -r <random index category list> -c <single category url> -e <early stop, work in site crawl mode only> -s <site url eg: https://www.jpxgmn.net (no last backslash "/")> ****************************************************************************************************
Traceback (most recent call last): File "requests\adapters.py", line 439, in send File "urllib3\connectionpool.py", line 785, in urlopen File "urllib3\util\retry.py", line 592, in increment urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='www.jpmn8.cc', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1124)')))
在群辉下通过pyinstaller编译py文件会出现各种问题。首先是没有binutils,如果要安装这个工具包,需要安装包管理器ipkg。在确定系统处理器架构之后即可安装对应的包管理下,命令如下:
wget http://ipkg.nslu2-linux.org/feeds/optware/syno-i686/cross/stable/syno-i686-bootstrap_1.2-7_i686.xsh chmod +x syno-i686-bootstrap_1.2-7_i686.xsh sh syno-i686-bootstrap_1.2-7_i686.xsh
安装完成之后即可通过ipkg进行包管理了,
ipkg install binutils
由于爬虫比较多,有的爬虫在下载的时候没有处理网络问题或者图片本山链接错误导致的图片异常。有的是处理了的,不要问为什么没加异常检测,问就是懒。
下载的图片会出现下面的问题,其实预览的时候就会发下问题了,另外打开这个图片其实会显示404或者502之类的错误页面。所以写了一段处理代码,主要两个功能:
1.删除小文件,至于多小自己去调整代码 2.如果目录下所有的文件都有问题,删除文件后同时删除目录