본문 바로가기

[딥러닝]8

Video | VideoBERT 리뷰, BERT로 비디오-캡션 Joint 모델링하기 VideoBERT: A Joint Model for Video and Language Representation Learning Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid Google Research ICCV 2019 (잠실 코엑스!!) 2024년 2월 기준 인용 수 무려 1200회 [arXiv][paper] VideoBERT: A Joint Model for Video and Language Representation Learning Self-supervised learning has become increasingly important to leverage the abundance of unlabeled data .. 2024. 2. 9.
[딥러닝] Domain Generalization | DecAug: Out-of-Distribution Generalization via Decomposed Feature Representation and Semantic Augmentation Reference [Bai et al., AAAI 2021] [paper] [code] DecAug: Out-of-Distribution Generalization via Decomposed Feature Representation and Semantic Augmentation Authors HKUST Huawei Noah's Ark Lab Shanghai Jiao Tong Univ. Nanjing Univ. Haoyue Bai 1*† (intern) Rui Sun 2† Lanqing Hong 2 Fengwei Zhou 2 Nanyang Ye 3‡, Han-Jia Ye 4 S.-H. Gary Chan 1 Zhenguo Li 2 Summary OOD generalization 문제의 핵심인 distribu.. 2021. 9. 20.
[학부생의 딥러닝] GANs | 2020 GANs Review ★ A Review on Generative Adversarial Networks : Algorithms, Theory, and Applications Reference 해당 논문 : https://arxiv.org/abs/2001.06937 A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications Generative adversarial networks (GANs) are a hot research topic recently. GANs have been widely studied since 2014, and a large number of algorithms have been proposed. However, there is few comprehensive study explaining the connections among different GA arxiv.or.. 2020. 3. 15.
[학부생의 딥러닝] GANs | GANSynth : Adversarial Neural Audio Synthesis Reference GANSynth : https://openreview.net/pdf?id=H1xQVn09FX Spherical Gaussian Distribution : https://mynameismjp.wordpress.com/2016/10/09/sg-series-part-2-spherical-gaussians-101/ Summary 나온지 얼마 안 된 따끈따끈한 논문이다. 이미지 생성에 있어 GAN은 상당히 강력한 성능을 보여주지만 음성 생성에서는 고만고만 했었다. 소리를 직접 생성하지 않고 spectrogram(이미지로 표현된 소리)을 생성하여 구현하였더니 성능이 괜찮았다고 한다. NSynth라는 악기, 피치, 속도, 음량 등을 달리하여 한 노트씩 녹음된 정제된 데이터셋을 사용했다. 여기서 생성.. 2019. 4. 20.
[학부생의 딥러닝] GANs | WGAN, WGAN-GP : Wassestein GAN(Gradient Penalty) GANs에서 WGAN-GP Loss는 LSGAN Loss와 함께 가장 많이 쓰이는 loss이다. 이전의 loss 들의 문제점을 많이 해결했고 논문에서는 잘 작동하는 이유를 수학적으로 후련하게 알려준다. 하지만 수학이 좀 많이 쓰인다...한국어로 된 WGAN 자료가 많이 없는데 혹시나 도움 됐으면 한다. 수학이 상당히 헤비하게 나오는데 붙들고 좀만 머리굴리면 이해 되는 수준일 것이라 생각한다. 사실 나도 잘 이해했는지는 모르겠다. 내가 이해한 수준에서 리뷰해보겠다. (현재 수학을 배우는 중이어서 이해도가 높아질 때마다 수정하고 있습니다. 의도치 않게 많은 분들이 이 글을 찾아오시고 있습니다. 이상한 부분은 가차없이 태클 걸어주시면 감사하겠습니다.) 빠른 요약 Motivation GAN에서는 real, fa.. 2019. 4. 9.
[학부생의 딥러닝] GANs | InfoGAN : Information maximizing GAN InfoGAN - Tensorflow 구현, PyTorch 구현 레퍼런스 - InfoGAN - Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets : https://arxiv.org/abs/1606.03657 - 상호정보량 위키 : https://en.wikipedia.org/wiki/Mutual_information - 유재준님 블로그 : http://jaejunyoo.blogspot.com/2017/03/infogan-2.html - Gaussian Loss 참고: http://aiden.nibali.org/blog/2016-12-01-implementing-infogan/ - 수식 전개 .. 2018. 6. 27.
[학부생의 딥러닝] GANs | DCGAN : Deep Convolutional GAN DCGAN - Tensorflow 구현, PyTorch 구현 기본적인 개념은 Vanilla GAN과 완전히 똑같고 fully connected layer들을 Conv layer로 바꿔주기만 하면 된다. 그래서 Vanilla GAN을 구현했다면 DCGAN도 쉽게 구현할 수 있다. 다만 Generator에서 transposed convolution이라는 기법을 사용해서 이것만 유의하면 될 것 같다. 논문에는 MNIST에 사용된 DCGAN 구조가 나와있지 않아서 LSUN에 사용된 구조에서 끝 부분만 살짝 변형했다. LSUN 등 3채널 데이터셋에 활용하려면 마지막 출력 부분만 3채널로 바꿔주면 된다. 학습은 i5-6600, GTX 1060(6GB) ubuntu 18.04 환경에서 15분 걸렸다. 기본개념 기본 .. 2018. 6. 27.
[학부생의 딥러닝] GANs | GAN : Generative Adversarial Nets MNIST GAN - Git 새벽 두 시가 다 돼가는데 잠이 오질 않는다. 미뤄뒀던 GAN 리뷰나 해봐야겠다. Generative Adversarial Nets - https://arxiv.org/abs/1406.2661 URL에 써있듯이 2014년 6월에 나온 논문이다. 당시에는 굉장히 혁신적이었지만 지금은 거의 고등학교 미적분 같은 개념이 되어버렸다. 어디서 누가 인공지능으로 사람 목소리, 사람 얼굴 사진, 이모지, 늙어보이는 필터를 만들었다고 하면 거의 이 모델이 기반이 된 것이다. 이전에도 이렇게 학습한 데이터들을 흉내내게 학습하는 모델들이 있었지만 효과는 그리 좋지 않았다. "흉내"를 잘 냈다 못 냈다는 인간이 판단하게 되는데 사람들 맘에 안 들면 거기서 끝인거다. 이 모델의 의의는 생성기 학습.. 2018. 6. 27.