AIML12 [Mamba 이해하기 1-2] HiPPO 깊게 알아보기 이전 글에서 이어진다. [Mamba 이해하기 1-1] HiPPO의 A 행렬의 중요성 | HiPPO: Recurrent Memory with Optimal Polynomial Projections, Gu et al.다루고자 하는 문제: 시계열 모델링1차원 연속 신호 $x(t)$가 주어졌을 때, 우리가 원하는 종류의 신호 $y(t)$로 바꿔주는 함수(또는 시스템) $f(t): \mathbb{R}_+ \rightarrow \mathbb{R}$을 찾는 문제이다. $x(t)$haawron.tistory.comHiPPO: Recurrent Memory with Optimal Polynomial Projections, Gu et al., NeurIPS 2020 HiPPO: Recurrent Memory with Op.. 2024. 9. 18. [Mamba 이해하기 1-1] HiPPO의 A 행렬의 중요성 | HiPPO: Recurrent Memory with Optimal Polynomial Projections, Gu et al., NeurIPS 2020 다루고자 하는 문제: 시계열 모델링1차원 연속 신호 $x(t)$가 주어졌을 때, 우리가 원하는 종류의 신호 $y(t)$로 바꿔주는 함수(또는 시스템) $f(t): \mathbb{R}_+ \rightarrow \mathbb{R}$을 찾는 문제이다. $x(t)$가 오늘 엔비디아 주가라면 $y(t)$는 내일 주가가 될 수 있다. $x(t)$가 노이즈 낀 전화기 너머 목소리라면 $y(t)$는 깨끗한 목소리가 될 수 있다. 마지막으로, $x(t)$가 기계가 만들어낸 사람 목소리라면 매 지점마다 의심스러운 정도를 나타내는 $y(t)$를 만들 수도 있다.사람은 비디오, 오디오, 자연어 등을 효율적으로 이해할 수 있지만 딥러닝 모델들은 그렇지 못하다. 컴퓨터는 신호를 discrete 하게 받을 수밖에 없고 연속 신호는.. 2024. 9. 3. [Mamba 이해하기 0] 개요 그래서 Mamba가 무엇인가? 왜 이렇게 유명한가?맘바는 time-varying state-space model (SSMs) + hardware-aware state materialization이다.최근 LLM의 작동 방식은 다음 단어 맞히기이다. 사용자의 질문 + 자신이 지금까지 했던 답변을 보고 제일 그럴듯한 다음 단어를 예측한다. Auto(스스로)-regressive(참고) 하다고 한다. 한 문장을 생성하기 위해 단어 개수만큼의 forward pass가 요구된다. 초대형 트랜스포머인 LLM은 단 한 번의 forward pass도 엄청난 양의 연산량을 요구한다. 지구의 엔트로피를 올리는 주범이 된 지 오래다.LLM의 연산량을 줄이려는 시도는 매우 많았다. 두 가지로 귀결된다. 하나는 auto-regr.. 2024. 9. 3. Video | VideoBERT 리뷰, BERT로 비디오-캡션 Joint 모델링하기 VideoBERT: A Joint Model for Video and Language Representation Learning Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid Google Research ICCV 2019 (잠실 코엑스!!) 2024년 2월 기준 인용 수 무려 1200회 [arXiv][paper] VideoBERT: A Joint Model for Video and Language Representation Learning Self-supervised learning has become increasingly important to leverage the abundance of unlabeled data .. 2024. 2. 9. [딥러닝] Domain Generalization | DecAug: Out-of-Distribution Generalization via Decomposed Feature Representation and Semantic Augmentation Reference [Bai et al., AAAI 2021] [paper] [code] DecAug: Out-of-Distribution Generalization via Decomposed Feature Representation and Semantic Augmentation Authors HKUST Huawei Noah's Ark Lab Shanghai Jiao Tong Univ. Nanjing Univ. Haoyue Bai 1*† (intern) Rui Sun 2† Lanqing Hong 2 Fengwei Zhou 2 Nanyang Ye 3‡, Han-Jia Ye 4 S.-H. Gary Chan 1 Zhenguo Li 2 Summary OOD generalization 문제의 핵심인 distribu.. 2021. 9. 20. [학부생의 딥러닝] GANs | 2020 GANs Review ★ A Review on Generative Adversarial Networks : Algorithms, Theory, and Applications Reference 해당 논문 : https://arxiv.org/abs/2001.06937 A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications Generative adversarial networks (GANs) are a hot research topic recently. GANs have been widely studied since 2014, and a large number of algorithms have been proposed. However, there is few comprehensive study explaining the connections among different GA arxiv.or.. 2020. 3. 15. [학부생의 딥러닝] GANs | GANSynth : Adversarial Neural Audio Synthesis Reference GANSynth : https://openreview.net/pdf?id=H1xQVn09FX Spherical Gaussian Distribution : https://mynameismjp.wordpress.com/2016/10/09/sg-series-part-2-spherical-gaussians-101/ Summary 나온지 얼마 안 된 따끈따끈한 논문이다. 이미지 생성에 있어 GAN은 상당히 강력한 성능을 보여주지만 음성 생성에서는 고만고만 했었다. 소리를 직접 생성하지 않고 spectrogram(이미지로 표현된 소리)을 생성하여 구현하였더니 성능이 괜찮았다고 한다. NSynth라는 악기, 피치, 속도, 음량 등을 달리하여 한 노트씩 녹음된 정제된 데이터셋을 사용했다. 여기서 생성.. 2019. 4. 20. [학부생의 딥러닝] GANs | WGAN, WGAN-GP : Wassestein GAN(Gradient Penalty) GANs에서 WGAN-GP Loss는 LSGAN Loss와 함께 가장 많이 쓰이는 loss이다. 이전의 loss 들의 문제점을 많이 해결했고 논문에서는 잘 작동하는 이유를 수학적으로 후련하게 알려준다. 하지만 수학이 좀 많이 쓰인다...한국어로 된 WGAN 자료가 많이 없는데 혹시나 도움 됐으면 한다. 수학이 상당히 헤비하게 나오는데 붙들고 좀만 머리굴리면 이해 되는 수준일 것이라 생각한다. 사실 나도 잘 이해했는지는 모르겠다. 내가 이해한 수준에서 리뷰해보겠다. (현재 수학을 배우는 중이어서 이해도가 높아질 때마다 수정하고 있습니다. 의도치 않게 많은 분들이 이 글을 찾아오시고 있습니다. 이상한 부분은 가차없이 태클 걸어주시면 감사하겠습니다.) 빠른 요약 Motivation GAN에서는 real, fa.. 2019. 4. 9. [학부생의 머신러닝] | General | SVM : Support Vector Machine 레퍼런스 SVM 위키 : https://en.wikipedia.org/wiki/Support_vector_machine KKT 위키 : https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions Quora KKT 질문 : https://www.quora.com/What-do-the-Karush%E2%80%93Kuhn%E2%80%93Tucker-conditions-mean 이기창님 블로그 : https://ratsgo.github.io/machine%20learning/2017/05/23/SVM/ 개요 가장 유명한 머신러닝 알고리즘 중 하나인 SVM(Support Vector Machine; 서포트 벡터 머신)에 대해 알아보려고 .. 2018. 7. 10. [학부생의 딥러닝] GANs | InfoGAN : Information maximizing GAN InfoGAN - Tensorflow 구현, PyTorch 구현 레퍼런스 - InfoGAN - Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets : https://arxiv.org/abs/1606.03657 - 상호정보량 위키 : https://en.wikipedia.org/wiki/Mutual_information - 유재준님 블로그 : http://jaejunyoo.blogspot.com/2017/03/infogan-2.html - Gaussian Loss 참고: http://aiden.nibali.org/blog/2016-12-01-implementing-infogan/ - 수식 전개 .. 2018. 6. 27. [학부생의 딥러닝] GANs | DCGAN : Deep Convolutional GAN DCGAN - Tensorflow 구현, PyTorch 구현 기본적인 개념은 Vanilla GAN과 완전히 똑같고 fully connected layer들을 Conv layer로 바꿔주기만 하면 된다. 그래서 Vanilla GAN을 구현했다면 DCGAN도 쉽게 구현할 수 있다. 다만 Generator에서 transposed convolution이라는 기법을 사용해서 이것만 유의하면 될 것 같다. 논문에는 MNIST에 사용된 DCGAN 구조가 나와있지 않아서 LSUN에 사용된 구조에서 끝 부분만 살짝 변형했다. LSUN 등 3채널 데이터셋에 활용하려면 마지막 출력 부분만 3채널로 바꿔주면 된다. 학습은 i5-6600, GTX 1060(6GB) ubuntu 18.04 환경에서 15분 걸렸다. 기본개념 기본 .. 2018. 6. 27. [학부생의 딥러닝] GANs | GAN : Generative Adversarial Nets MNIST GAN - Git 새벽 두 시가 다 돼가는데 잠이 오질 않는다. 미뤄뒀던 GAN 리뷰나 해봐야겠다. Generative Adversarial Nets - https://arxiv.org/abs/1406.2661 URL에 써있듯이 2014년 6월에 나온 논문이다. 당시에는 굉장히 혁신적이었지만 지금은 거의 고등학교 미적분 같은 개념이 되어버렸다. 어디서 누가 인공지능으로 사람 목소리, 사람 얼굴 사진, 이모지, 늙어보이는 필터를 만들었다고 하면 거의 이 모델이 기반이 된 것이다. 이전에도 이렇게 학습한 데이터들을 흉내내게 학습하는 모델들이 있었지만 효과는 그리 좋지 않았다. "흉내"를 잘 냈다 못 냈다는 인간이 판단하게 되는데 사람들 맘에 안 들면 거기서 끝인거다. 이 모델의 의의는 생성기 학습.. 2018. 6. 27. 이전 1 다음