美女图片整理【异常图片】

由于爬虫比较多,有的爬虫在下载的时候没有处理网络问题或者图片本山链接错误导致的图片异常。有的是处理了的,不要问为什么没加异常检测,问就是懒。

下载的图片会出现下面的问题,其实预览的时候就会发下问题了,另外打开这个图片其实会显示404或者502之类的错误页面。所以写了一段处理代码,主要两个功能:

1.删除小文件,至于多小自己去调整代码
2.如果目录下所有的文件都有问题,删除文件后同时删除目录

错误图片效果:

自动清理之后效果:

代码如下:

# 妹子图整理工具 by obaby
# http://h4ck.org.cn
# http://nai.dog
# 按 Shift+F10 执行或将其替换为您的代码。
# 按 双击 Shift 在所有地方搜索类、文件、工具窗口、操作和设置。
import os
from pathlib import Path
import hashlib
import shutil
from pyfiglet import Figlet

source_file_paths = [
    Path(r'I:\iknmv'),
]

dest_file_path = Path('I:\Beauty_Images')




def print_hack():
    print('*' * 100)
    # f = Figlet(font='slant')
    f = Figlet()
    print(f.renderText('obaby@mars'))
    print('美女图片清理工具 V1.0')
    print('Verson: 23.03.14')
    print('Blog: http://www.h4ck.org.cn')
    print('      http://nai.dog')
    print('*' * 100)

def check_empty_by_scandir(path):
    with os.scandir(path) as it:
        return not any(it)

def clean_images_in_dir(p):
    global done_paths
    print('=' * 200)
    print('[M] 开始复制目录' + p.name + ' ......')
    for dir in p.iterdir():

        for img in dir.glob('*.*'):
            # print(img)
            # 处理小于100k文件
            if int(img.stat().st_size) < 10000:
                # image_name = img.name
                # shutil.delete(img)
                try:
                    img.unlink()
                except :
                    pass
                print('[*]' + img.name + ' 已经删除')

        print('[*]' + dir.name + ' 目录清理完成')
        print('-' * 200)
        if check_empty_by_scandir(dir):
            try:
                dir.rmdir()
            except :
                pass

# 按间距中的绿色按钮以运行脚本。
if __name__ == '__main__':
    print_hack()
    # append_done_paths('c/dir')
    # done_list = get_done_paths()
    # print(done_list)
    # test_path = Path(r'G:\秀人集')
    # tp = Path(r'G:\秀人集\[XINGYAN星颜社]VOL.154_女神王雨纯脱深色日式和服露性感白色内衣配超薄肉丝诱惑写真82P')
    # print(tp.name)
    # ml = get_image_md5_in_path(Path(r'G:\秀人集\[XINGYAN星颜社]VOL.154_女神王雨纯脱深色日式和服露性感白色内衣配超薄肉丝诱惑写真82P'))
    # print(ml)
    print('*' * 100)
    print('[S] 开始处理图片:')
    for p in source_file_paths:
        clean_images_in_dir(p)

    print('[D] 所有目录完成清理。请欣赏图片吧。')
    print('*' * 100)

 

 

 

☆版权☆

* 网站名称:obaby@mars
* 网址:https://h4ck.org.cn/
* 个性:https://oba.by/
* 本文标题: 《美女图片整理【异常图片】》
* 本文链接:https://h4ck.org.cn/2023/03/11509
* 短链接:https://oba.by/?p=11509
* 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。


猜你喜欢:

27 comments

    1.  
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省济南市 移动

      原来有个2T的硬盘塞满了,有加了一块4T的硬盘专门用来下东西~~ kiss

        1.  
          Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省济南市 移动

          说实话呢,就是看不完啊,实在太多了,收集了很多。嘿嘿,不过看图也是一项体力活~~~

    1.  
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省济南市 移动

      杜老师可以开多进程啊,-r参数可以随机重排分类。如果网络好的话,开8个进程两三天就下载完了~~

        1.  
          Google Chrome 110 Google Chrome 110 Windows 10 Windows 10 cn山东省青岛市 联通

          酱紫,你用的那个爬虫啊,我给你打包一个群辉的版本。

                1.  
                  Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省青岛市 联通

                  晚上我再试试,不行就直接发源码,python跑吧。啊哈哈哈

            1.  
              Google Chrome 110 Google Chrome 110 Windows 10 Windows 10 cn山东省青岛市 联通

              你的群辉是x86架构的还是arm架构的?跑虚拟机,我猜应该是x86架构的~~

            2.  
              Google Chrome 110 Google Chrome 110 Windows 10 Windows 10 cn山东省青岛市 联通

              编译了一下,问题太多了。哈哈哈。群辉下面的命令行工具缺失,各种错误,跑不起来

  1.  
    Google Chrome 103 Google Chrome 103 Windows 10 Windows 10 cn安徽省合肥市巢湖市 电信

    问题是异常图片怎么补齐。。 mail

    1.  
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省青岛市 联通

      补齐不了啊,因为不是网络超时导致的。你去访问下那个图片链接看看不就知道了?直接返回的服务器错误,怎么补齐?也不能无中生有啊。当然如果其他的图片站也有这套图,可以去其他的图片展下载。这样倒是能补齐一部分。

  2. Firefox 110 Firefox 110 Windows 10 Windows 10 us美国

    下载那么多小姐姐照片, 也不及姐姐万分之一美呢.

      1. Firefox 110 Firefox 110 Windows 10 Windows 10 us美国

        不嘛,不嘛,伦家就要.姐姐多美呀 kiss 那些人都比不上姐姐让我心动…尤其是”职业女性”.

        好啦, 姐姐,我吃饭去啦, 拜拜. 下次见.

    1.  
      Google Chrome 110 Google Chrome 110 Android 10 Android 10 cn山东省青岛市 联通

      只能发图片哦,发不了真人。我也想要真人呢。 cool

        1.  
          Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省青岛市 联通

          我这里移动和联通以及手机流量都访问不了~~

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注