본문 바로가기

Mamba2

[Mamba 이해하기 1-1] HiPPO의 A 행렬의 중요성 | HiPPO: Recurrent Memory with Optimal Polynomial Projections, Gu et al., NeurIPS 2020 다루고자 하는 문제: 시계열 모델링1차원 연속 신호 $x(t)$가 주어졌을 때, 우리가 원하는 종류의 신호 $y(t)$로 바꿔주는 함수(또는 시스템) $f(t): \mathbb{R}_+ \rightarrow \mathbb{R}$을 찾는 문제이다. $x(t)$가 오늘 엔비디아 주가라면 $y(t)$는 내일 주가가 될 수 있다. $x(t)$가 노이즈 낀 전화기 너머 목소리라면 $y(t)$는 깨끗한 목소리가 될 수 있다. 마지막으로, $x(t)$가 기계가 만들어낸 사람 목소리라면 매 지점마다 의심스러운 정도를 나타내는 $y(t)$를 만들 수도 있다.사람은 비디오, 오디오, 자연어 등을 효율적으로 이해할 수 있지만 딥러닝 모델들은 그렇지 못하다. 컴퓨터는 신호를 discrete 하게 받을 수밖에 없고 연속 신호는.. 2024. 9. 3.
[Mamba 이해하기 0] 개요 그래서 Mamba가 무엇인가? 왜 이렇게 유명한가?맘바는 time-varying state-space model (SSMs) + hardware-aware state materialization이다.최근 LLM의 작동 방식은 다음 단어 맞히기이다. 사용자의 질문 + 자신이 지금까지 했던 답변을 보고 제일 그럴듯한 다음 단어를 예측한다. Auto(스스로)-regressive(참고) 하다고 한다. 한 문장을 생성하기 위해 단어 개수만큼의 forward pass가 요구된다. 초대형 트랜스포머인 LLM은 단 한 번의 forward pass도 엄청난 양의 연산량을 요구한다. 지구의 엔트로피를 올리는 주범이 된 지 오래다.LLM의 연산량을 줄이려는 시도는 매우 많았다. 두 가지로 귀결된다. 하나는 auto-regr.. 2024. 9. 3.