์ฒ์์ผ๋ก ๊นํ์์ ๋ฅ๋ฌ๋ ์คํ์์ค๋ฅผ ๋ค์ด๋ฐ์ ์คํ์ ํ๋ ๊ฒ์ ์์์ผ๋ก ์ฑ๋ฅ ๊ฐ์ ์ ์ํด ๊ณต๋ถํ๊ณ ์ฐ๊ตฌ(??)ํด ๋ณผ ๊ธฐํ๊ฐ ์๊ฒผ๋ค. ํ์ง๋ง ์ ์ผ ์ฒ์ ๋ค๋ฃจ๊ฒ ๋ ๋ฐ์ดํฐ๊ฐ ํํ ์~์ฒญ ํฐ ๋ฐ์ดํฐ๋ผ ์ ๋ง ๋ง์ ๊ณ ๋น๋ค์ด ์์๋ค....๐ญ๐ญ๐ญ ๊ทธ๋ฅ ๋๋ ค๋ณด๋ ๊ฑด๋ฐ... ๋ชจ๋ ๊ฒ ์ฒ์์ธ ๋์๊ฒ ๋๋ฌด ๋ง์ ์๊ฐ์ด ํ์ํ๋๋ผ... ์ง์ง ์์์กฐ์ฐจ ๋ชปํ๋๋ฐ
1. RuntimeError : DataLoader worker (pid ~~) is killed by signal: Killed.
์ง์ฌ ์ด ์ค๋ฅ๋๋ฌธ์ ๊ตฌ๊ธ์ ์น๋ฉด ๋์ค๋ ๊ธ์ ๋ชจ๋ ์ฝ์ด๋ดค๋ค.
1.1 ์๋ฌ์ ์์ธ
1.2 ์๋
1) batch size ์ค์ด๊ธฐโ
๊ตฌ๊ธ์ ๊ฒ์ํด๋ณด๋ ๊ฐ์ฅ ๋จผ์ ๋์ค๋ ํด๊ฒฐ๋ฒ์ด batch size๋ฅผ ์ค์ด๋ผ๋ ๋ง์ด ์์ด์ 512๋ถํฐ 32๊น์ง ์ค์ฌ์ ๋ค ํด๋ดค๋๋ฐ ์ฌ์ ํ ํด๊ฒฐ๋์ง ์์๋ค.
2) num_worker = 0 ํ๊ธฐโ
์ด๋ ๊ฒ ํ๋ฉด.. ๊ฑฐ์ ์ธ์์ ๋ค์์ ๋๋์ง ์์ ์ ๋์ ์๊ฐ์ด ๋ ์ ๋ฐ๋ก ์ค๋จ..
3) multi-gpu ์ฐ๊ธฐ by using DataParallelโ
์...์๋ผ..... ์ฌ๋ฌ๊ฐ๋ฅผ ์ฐ๋๋ฐ๋ ํน์ ์์ ์๋ฅผ ๋ค์ด ํ๋ฃจ ์ ๋ ๋๋ฆฌ๋ฉด ๊ณ์ Dataloader๊ฐ ์ฃฝ์๋ค.. ๊ฒ๋ค๊ฐ gpu๋ฅผ 20%~30%๋ง ์ฌ์ฉํ๊ณ , 100% ํ์ฉํ์ง ๋ชปํ๋๋ผ..๐ญ ๊ทธ๋ฌ๋ค๊ฐ htop ์ ์จ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ง์ผ๋ณด๋ ๋ ํ๋ฃจ์ ๋๊ฐ ๋๋ฉด cpu ๋ฉ๋ชจ๋ฆฌ(62.8G)๋ฅผ ๊ฝ ์ฑ์์ dataloader killed ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ค๋ ๊ฒ์ ๊นจ๋ฌ์๋ค.. ๊ทธ๋์ ๊ท์ฐฎ์ง๋ง ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ฐพ์๋ดค๋ค..
4) multi-gpu ์ฐ๊ธฐ by using DistributedDataParallel(์ฐธ์กฐ : https://github.com/pytorch/examples/blob/master/imagenet/main.py)
2.
3. Exeception 0 SISKILL
'Computer Science > ํ๊ต๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
machine learning >> clustering(1) (0) | 2020.10.19 |
---|---|
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๊ฐ์ ๊ณผ์ (1) (0) | 2020.05.23 |
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๊ฐ์ ๊ณผ์ (2) (0) | 2020.05.23 |
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๊ฐ์ ๊ณผ์ (3) (0) | 2020.05.23 |
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๋ถ์ (0) | 2020.04.24 |