微图坊爬虫 【22.05.16】【Windows】

使用参数:

****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
         -a <download all site images>
         -q <query the image with keywords>
         -h <display help text, just this>
Option Arguments:
         -p <image download path>
         -r <random index category list>
         -c <single category url>
         -e <early stop, work in site crawl mode only>
         -s <site url eg: https://www.v2ph.com (no last backslash "/")>
****************************************************************************************************

Continue Reading

无法加载文件activate.ps1,因为在此系统上禁止运行脚本

晚上想修改python的代码,结果打开pycharm直接报错了。

Windows PowerShell
版权所有 (C) Microsoft Corporation。保留所有权利。

尝试新的跨平台 PowerShell https://aka.ms/pscore6

无法加载文件 F:\Pycharm_Projects\meitulu-spider\venv\Scripts\activate.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID=135170 中的 about_Execution_Policies。
    + CategoryInfo          : SecurityError: (:) [],ParentContainsErrorRecordException
    + FullyQualifiedErrorId : UnauthorizedAccess
PS F:\Pycharm_Projects\meitulu-spider>

Continue Reading

关于联通的dns服务器劫持quickconnect.cn

nas上的quickconnet好久之前就不能访问了,一直以为是群辉的服务挂了,但是像这么大的问题网上竟然没有任何的反馈感觉也不太正常,搜索了一下也没有提到说服务挂了的任何信息。今天在公司又访问了一下quickconnect发现竟然能打开。于是现在原因基本就剩下一个了,联通搞得鬼,为了确认最终是联通的问题,让同事在家试了试发现也打不开。如果没有修改任何信息的话,那用的dns服务器基本就是联通的。尝试使用114.114.114.114解析发现能返回正常的ip。那这就毫无疑问是联通的问题了。

Continue Reading

群辉 NAS 降级记

nas存储一直提示可以升级7.0.于是在一个月黑风高的夜晚,手一抖,点了个升级。升级完之后就发现抑郁了,smb协议的共享在Windows下慢的1b。之前千兆网络基本是秒开,结果升级之后打开共享需要等将近10s钟。管理后台更卡,从开始加载到完全显示需要半分钟。这tm就抑郁了,于是开始搜索降级教程。

Continue Reading

秀人集爬虫 【22.04.12】【Windows】【Mac M1】

更新日志:
22.4.12
增加-e early stop参数,配合整站爬取使用,单独无效.如果没有完成整站爬取不要使用该参数,终止逻辑过于简单粗暴。首次爬取尽量使用批处理死循环,开多进程处理。
22.1.18
1.兼容更新后的秀人集网站,支持搜索以及全站爬取。
2.修改默认域名为https://www.xiurenji.net(暂时可以不使用-s 参数)。
22.1.20
1.修复页面异常可能导致的异常终止
22.1.24
1.增加-r参数,支持分类重拍,可以开启多个进程进行爬取。说实话就是姐姐太懒了,不想写多线程。
2.增加-c参数,支持爬取特定分类,请直接-c 分类地址。具体参数见下方使用说明。

使用参数:

****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
         -a <download all site images>
         -q <query the image with keywords>
         -h <display help text, just this>
Option Arguments:
         -p <image download path>
         -r <random index category list> (该参数会重新排列分类列表,可以开启多个进程同时进行爬取)
         -c <single category url> (支持单分类爬取,如果只想爬取某一个分类请使用该参数)
         -e <early stop, work in site crawl mode only> (配合整站爬取使用,多次检测到已经下载自动跳过该分类)
         -s <site url eg: http://www.xiurenji.vip (no last backslash "/")>
*************************************************************************************

Continue Reading