V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
? Learn Python the Hard Way
Python Sites
? PyPI - Python Package Index
? http://diveintopython.org/toc/index.html
? Pocoo
值得关注的项目
? PyPy
? Celery
? Jinja2
? Read the Docs
? gevent
? pyenv
? virtualenv
? Stackless Python
? Beautiful Soup
? 结巴中文分词
? Green Unicorn
? Sentry
? Shovel
? Pyflakes
? pytest
Python 编程
? pep8 Checker
Styles
? PEP 8
? Google Python Style Guide
? Code Style from The Hitchhiker's Guide
MasterCai
V2EX  ?  Python

如何在子进程的 for 循环中更新 tqdm 进度条

  •  
  •   MasterCai · 2022-09-20 22:32:05 +08:00 · 1931 次点击
    这是一个创建于 597 天前的主题,其中的信息可能已经有所发展或是发生改变。

    腾讯云最新优惠活动来了:云产品限时1折,云服务器低至88元/年 ,点击这里立即抢购:9i0i.cn/qcloud,更有2860元代金券免费领取,付款直接抵现金用,点击这里立即领取:9i0i.cn/qcloudquan

    (福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

    问题的背景是对于一个大批量的数据,想要分割成多个小批量然后使用多进程的方式进行处理,目前这一步已经实现,现在想加上一个进度条显示总的处理进程,目前调研出的结果都是只能显示每个小批量的完成进度(tqdm 配合 imap),每个小批量数据必须在一个进程内进行处理,不能分开(也就是不能将整个大批量数据直接丢给 imap)

    举个例子可能更好理解:有 10000 条数据,我想分 10 份 1000 条数据的小批量用 10 个进程进行处理,我想要的效果是[0/10000]这种,而 tqdm 配合 imap 实现效果是[0/10]这种。重点在于 如何在子进程的 for 循环中更新 tqdm 进度条

    伪代码如下:

    def worker(data, pbar):
    	for i in data:
        	print(data)
            pbar.update(1)
    
    if __name__ == "__main__":
    	data = [1]*10000
        pbar = tqdm.tqdm(10000)
    	for i in range(0, 10000, 1000):
        	p_list.append(Process(target=worker, args=(data[i, i+1000],pbar)))
            p_list[-1].start()
        for p in p_list:
        	p.jion()
    

    希望大佬能指点一下,感谢

    第 1 条附言  ·  2022-09-21 10:05:55 +08:00

    腾讯云最新优惠活动来了:云产品限时1折,云服务器低至88元/年 ,点击这里立即抢购:9i0i.cn/qcloud,更有2860元代金券免费领取,付款直接抵现金用,点击这里立即领取:9i0i.cn/qcloudquan

    (福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

    感谢各位的回复,经过2,3楼大佬的提醒,使用Queue实现了子进程和主进程之间的通信,实现伪代码如下,遇到同样需求的朋友可以参考一下:

    def worker(data, pbar_queue):
        for i in data:
        	print(data)
            pbar_queue.put(1)
    
    if __name__ == "__main__":
        data = [1]*10000
        pbar = tqdm.tqdm(10000)
        pbar_queue = Queue()
    	for i in range(0, 10000, 1000):
        	p_list.append(Process(target=worker, args=(data[i, i+1000],pbar_queue)))
            p_list[-1].start()
        with tqdm(total=10000) as pbar:
            pbar_queue.get()
            pbar.update(1)
    
        for p in p_list:
        	p.jion()
    

    再次感谢?

    4 条回复  ?  2022-09-21 00:57:45 +08:00
    renmu
        1
    renmu  
       2022-09-20 23:00:25 +08:00 via Android
    写个全局变量,每次处理完毕后加一,但是这样处理好像还要加锁。
    或者手动调用 tqdm 的 update 函数,虽然我怀疑大概率也会出问题。
    要么就单独处理每个进程内的进度条,分别显示十个任务的进度条
    MasterCai
        2
    MasterCai  
    OP
       2022-09-20 23:52:11 +08:00
    代码缩进渲染的有些问题,还请大家理解一下

    @renmu 您说的是不是就是我写的伪代码表达的意思呢,这个我实验过,不行;加锁就太麻烦了
    leonshaw
        3
    leonshaw  
       2022-09-21 00:01:43 +08:00   ?? 1
    semaphore 或者 shared memory + 锁,主进程更新
    ysc3839
        4
    ysc3839  
       2022-09-21 00:57:45 +08:00 via Android   ?? 1
    共享内存,子进程写主进程读,然后把所有子进程的数值相加传递给 tqdm
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1064 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:25 · PVG 06:25 · LAX 15:25 · JFK 18:25
    Developed with CodeLauncher
    ? Do have faith in what you're doing.


    http://www.vxiaotou.com