Unsupervised Learning
: unsupervise learning์ด๋ผ๋ ๋ง์ supervisor๊ฐ ์๋ค๋ ๋ป์ด๋ค. ์ฆ input X๋ฅผ ์ํ 'label'์ด ์กด์ฌํ์ง ์๋๋ค.
์ข ๋ฅ
- Density Estimation(KDE): y label์ ํ์์๊ณ , x data๋ง ํ์ํ๋ค.
- Clustering : kMeans, MoG
- Dimension Reduction : x data๊ฐ ์ฃผ์ด์ก์ ๋, ๋์ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ๋ฎ์ ์ฐจ์์ ๋ฐ์ดํฐ์ projection ํด์ฃผ๋ ๊ฒ์ด๋ค. ์ด๊ฑด 'compression'์ด๋ ๋น์ทํ๋ค.
- Factor analysis: ์ฃผ์ด์ง signal์ ๋ฐ์์ํค๋ ๋ฐ์ ์ฃผ์์ธ์ด ๋ฌด์์ธ๊ฐ?
- Representation Learning
Clustering
dataset ์ดํดํ๊ธฐ๐
: ๋จผ์ ๋ฐ์ดํฐ๋ค์ distribution์ ์์์ผ ํ๋ค. ๊ทผ๋ฐ ๋ชจ๋ ํ์ ํ๊ธฐ๋ ์ด๋ ค์ฐ๋๊น ์ฒ์์ ๊ฐ์ฅ ์ฝ๊ฒ ์ ๊ทผํ ์ ์๋ ๊ฒ๋ค์ด ํ๊ท , ๋ถ์ฐ, ์ต๋/์ต์ ๊ฐ ๋ฑ์ด ์๋ค. ํ์ง๋ง distribution์ด multimodal์ด๋ฉด ์ด๋กํ์ง?? ์ฆ ๋ณผ๋กํ ๊ฒ ์ฌ๋ฌ๊ฒ ์๋ ๊ฒฝ์ฐ ๋ง์ด๋ค. ๊ทธ๋ด ๋, ํ๊ท ์ด ๊ทธ๋ ๊ฒ ์ค์ํ ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ์ง๋ ์๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ์ clustering์ด ๋งค์ฐ ๋์์ด ๋๋ค.clustering
: 'Grouping the samples', ์ํ๋ค์ ๊ทธ๋ฃนํ ํด์ค์ผ ํ๋๋ฐ ์ด ๋ ๋ช๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ํด์ฃผ๋๊ฒ ์๋ฏธ ์์๊น? ์ผ๋จ ์ฐ๋ฆฌ๊ฐ supervisor๊ฐ ๋์ด์ ๋ชจ๋ธํํ ๋ฌด์ธ๊ฐ๋ฅผ ์ ๊ณตํด์ค์ผ ํ๋ค.์ ๊ทผ๋ฒ
- connectivity based
- centroid based
- distribution based
- hierarchical clustering
- 100๊ฐ์ ์ํ๋ก 100๊ฐ์ ํด๋ฌ์คํฐ๋ก ํ๋๊ฒจ, ๊ทธ ๋ค์์ ๊ฐ๊น์ด ์ ๋ค์ ๊ฒฐํฉ์ํค๊ณ ์ ์ ํด๋ฌ์คํฐ๋ฅผ ์ค์ฌ๊ฐ๋ ๊ฑฐ์ง. ๊ทธ๋ผ ๋ช๊ฐ์ ํด๋ฌ์คํฐ๊ฐ ํ์ํ๊ฐ? ๊ทธ๊ฑฐ๋ ๋ชจ๋ฅธ๋ค. (bottom up)
- 100๊ฐ์ ์ํ์ ์ฒ์์ 1๊ฐ์ ํด๋ฌ์คํฐ์ ๋ชจ๋ ์ง์ด๋ฃ๊ณ ์์ํ๋ ๊ฑฐ๋ค. ๊ทธ๋ฐ ๋ค์ ์ด๊ฑธ splitํด๋๊ฐ๋ค.
- Graph theoretic : spectral clusterint
kMeans ๐ฅ
- ํน์ง?!?!๐ง
- ์ฒ์์ ๋ช๊ฐ์ ํด๋ฌ์คํฐ๋ฅผ ์ ๊ณตํด์ค์ง 'k'๋ฅผ ์ ํด์ค๋ค. ์ด ๋ชจ๋ธ์ 'global convergence' ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ์ด๋์ ์์ํ๋ ๊ฐ์ ์ด๋๊ฐ์ ์๋ ดํ๋ฑ. ์ฐธ๊ณ ๋ก 'global optimization'์ด๋ ๋ค๋ฅธ ๋จ์ด์ด๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ฒ์์ initialization์ ์ด๋ป๊ฒ ํด์ฃผ๋๋๊ฐ ์ค์ํ๋ค. it is sensitive to initialization and outliers.
- 1 sample์ด 2๊ฐ์ cluster์ ์ํ ์๋ ์๋ค.
- dataset์ ๋ํด์ ์๋ฌด๊ฒ๋ ๋ชจ๋ฅผ ๊ฒฝ์ฐ์ ์ ํด๋ฆฌ๋์ธ ๊ฑฐ๋ฆฌ๊ฐ ์ ์ผ ์ข์ ์ต์ ์ด๋ค.๊ฑฐ์ ๋ชจ๋ ๊ฒฝ์ฐ ๊ทธ๋ ๋ค๊ณ ํ๋ฑ.
- M(i) = mean vector ์ ํด๋ฆฌ๋์ธ ๊ฑฐ๋ฆฌ์ ํ๋์ ํด๋ฌ์คํฐ ์์ ๋ชจ๋ ์ํ๋ค๊ณผ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํด์ค๋ค.
- ๋ฐ์ summation์์๋ 5๊ฐ์ ํด๋ฌ์คํฐ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ๋ฉด ๊ฐ cluster๋ง๋ค ๋ฐ์ดํฐ์ mean์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํด์ค๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ cluster์ ๊ฑฐ๋ฆฌ์ ํฉ์ ๋ํด์ ์ต์ํ๊ฐ ๋๋๋ก ํด์ค๋ค.
- ๊ณผ์ ?!?๐ง
- ์ฒ์ centroid๋ฅผ ๋๋คํ๊ฒ ์ด๊ธฐํ ํด์ค๋ค.
- ํ๋์ sample์ ๋ํด ๋ชจ๋ centroid์์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๊ณ ํด๋น cluster๋ฅผ ์ง์ ํด์ค๋ค.
- ๊ฐ๊ฐ์ ํด๋ฌ์คํฐ๋ด์ mean vector๋ฅผ ๊ณ์ฐํด์ค๋ค. ์ฆ ์๋ก์ด centroid๋ฅผ ๊ณ์ฐํด์ฃผ๊ณ ์ ๋ฐ์ดํธ ํด์ค๋น.
- 2๋ฒ๊ณผ 3๋ฒ์ ๊ณ์ ๋ฐ๋ณตํด์ค๋ค.์ธ์ ๊น์ง?? ์๋ฌ๊ฐ ์ฆ๊ฐํ์ง ์๊ฑฐ๋! ๊ฐ์ํ์ง ์๋ ๊ฒฝ์ฐ! ๋๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ ๋ ํ๋ผ๋ฏธํฐ๊ฐ ์ ๋ฐ์ดํธ๋ฅผ ํตํด ๋ฐ๋์ง ์๋๋ค๋ฉด ํ์ต์ ๋ฉ์ถฐ์ผ ํ๋น.
- ํน์ง?!?!๐ง
PCA?
๋ฐ์ดํฐ์ ์ฐจ์์ด ๋์์ง์๋ก ์ฐ๋ฆฌ๊ฐ ์ข์ํ๋ Euclidean distance์ ์์์น ๋ชปํ ๋ฐฉ์์ผ๋ก ๋์ํ ์๊ฐ ์๋ค. ๋ณดํต ์ฐจ์์ ํฌ๊ธฐ๋ฅผ 'feature์ ๊ฐ์'๋ผ๊ณ ํ๋ค.
Demensionality reduction
https://brunch.co.kr/@rlawlgy43/33
PCA(Principal Component Analysis):
- ํฌ์๋ ๋ฐ์ดํฐ์ ๋ถ์ฐ์ด ์ต๋ํ๋๋ projection matrix๋ฅผ ์ฐพ๋ ๋ฌธ์ .why? ๋ฐ์ดํฐ๋ค์ ๋ถ์ฐ์ด ์ ์ผ ์ปค์ผ ๋ฐ์ดํฐ ์ ์ค์ ๋ง์ ์ ์๊ธฐ ๋๋ฌธ(https://nittaku.tistory.com/291), ๋ถ์ฐ์ด ํฌ๋ค๋ ๋ง์ eigen value๊ฐ ๋์ ๊ฐ์ ๋๊ฐ์ด ์๋ฏธํจ!. ๊ทธ๋์ cov matrix ์ค Eigen value๊ฐ ๋์ ๊ฐ์ ์ฐพ์ Eigen Vector๋ฅผ ์ฐพ๊ณ ๊ทธ๊ฒ์ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ค์ ์ฎ๊ฒจ ์ฐจ์์ ์ถ์ํด์ค์ผ ํ๋ค. ๊ทธ๋์ ๊ตฌํ eigen vector๋ฅผ ๋ด๋ฆผ์ฐจ์ํด์ ๊ฑฐ๊ธฐ์ ์ํ๋ ์ฐจ์๋งํผ ๊ฐ์๋ฅผ ๊ณ ๋ฅด๊ณ ๊ฑฐ๊ธฐ์๋ค๊ฐ projection์ ํด์ฃผ๋๊ฑฐ์ง!(fit_transform)
- ๊ณ ์ ๊ณต๊ฐ์ผ๋ก oroginal data๋ฅผ projectionํ๋ค๋ ๊ฒ์ ๊ทธ ์๋ก์ด ๋ฒกํฐ์ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ์์น์์ผ์ค๋ค๋ ๋ป!
fit_transform : fit the model with X and X์๋ค๊ฐ ์ฐจ์ ์ถ์๋ ๊ฐ์ด ํด์ฃผ๋ ๊ฑฐ์
- Returns: X_new:array-like, shape(n_samples, n_components)
kMeans ๊ตฌํํ๊ธฐ
1. ๋๋ค์ผ๋ก centroids๋ฅผ ์ ์ ํด์ค๋ค.
2. centroid์ ๊ทผ๊ฑฐํ์ฌ assign each observation to a clsuter.
3. ๊ฐ ํด๋ฌ์คํฐ์ ํ๊ท ์ขํ๋ฅผ ๊ณ์ฐํ๊ธฐ, ๊ทธ๊ฒ์ด ์๋ก์ด centroid๊ฐ ๋๋ค.
4. ์๋ก์ด centroid์ ๊ธฐ๋ฐํ์ฌ ํด๋ฌ์คํฐ ์ฌ ํ ๋น
5. 3๋ฒ๊ณผ 4๋ฒ์ ์๋ ดํ ๋๊น์ง ๋ฐ๋ณต
* ์ฌ๊ธฐ์ ํ๊ฐ๊ธฐ์ค์ผ๋ก ์ผ์๋งํ acc๋ฅผ ๊ณ์ฐํ์.
'Computer Science > ํ๊ต๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Trainingํ ๋ ์ค๋ฅ์ ํด๊ฒฐ๋ฒ(Dataloader killed, Connection reset by peer, Exception 0 SISKILL) (0) | 2020.09.30 |
---|---|
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๊ฐ์ ๊ณผ์ (1) (0) | 2020.05.23 |
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๊ฐ์ ๊ณผ์ (2) (0) | 2020.05.23 |
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๊ฐ์ ๊ณผ์ (3) (0) | 2020.05.23 |
์ค์ ํ๋ก์ ํธ2 >> ์ํํธ์จ์ด ๋ถ์ (0) | 2020.04.24 |