읽기 설정
음, 저희는 삼 년 전에 이야기를 나눴었죠. 질문 여쭸는데요, 지난 삼 년 동안 가장 큰 변화가 뭐라고 생각하시나요?
지난 3년과 지금을 비교했을 때 가장 큰 차이점은 무엇이라고 생각하시나요? 네, 솔직히 말씀드리면 기술의 기반이 되는 기술력, 즉 기술의 기하급수적인 발전이 예상했던 대로, 대략적으로 진행되었다고 말씀드릴 수 있습니다.
글쎄요, 대략 플러스나 마이너스 몇 개 정도 있는 것 같아요. 여기는 대략 1년에서 2년 정도 차이가 있을 수 있고요. 저기는 플러스나 마이너스 1년에서 2년 정도 차이가 있는 것 같아요. 코드의 특정 방향은 예상하지 못했을 수도 있지만, 지수적으로 봤을 때 사실은...
모델이 고등학교 학생 수준에서 대학생 수준으로, 그리고 박사 과정과 전문가 수준에 도달하는 과정은 대략 제가 예상했던 범위 내에 있었던 것 같아요. 코드의 경우에는 그 이상으로 발전했고요. 그러니까 전선은 조금씩 고르지 않게 진행되고 있습니다.
거의 제가 예상했던 대로 진행됐어요. 그런데 가장 놀랍게 여겨진 점이 있어요, 말씀드릴게요. 가장 놀랍게 여겨진 점은 우리가 지수 함수의 끝에 얼마나 가까워졌는지에 대한 대중의 인식이 부족하다는 거예요.
저에게는 정말 놀라운 일인데요, 아시다시피, 있죠, 거품 안에 있는 분들과 거품 밖에 있는 분들이 계시다는 것이요. 그렇죠.
이런 문제들이 사람들의 입에 오르내리게 하고, 아시다시피, 익숙하고 민감한 정치적인 이슈들이 계속해서 우리 주변을 맴돌고 있죠, 특히 지수 증가의 막바지에 다가오면서요.
지금 그 지수함수가 어떤 모습인지 이해하고 싶습니다. 사실, 우리가 세 년 전 녹음했을 때 처음으로 여쭤봤던 질문이, 음, 스케일링은 어떻게 되는 건지였거든요.
작동 방식이 어떻게 되나요? 그리고 지금 비슷한 질문이 생겼는데, 적어도 대중의 시각으로 볼 때, 3년 전에는 엄청난 규모의 컴퓨팅 자원에서 손실 개선을 확인할 수 있는 잘 알려진 공공 트렌드가 있었습니다.
지금 강화학습 스케일링이 있는데, 공개적으로 알려진 스케일링 법칙은 아직 없네요. 모델에게 기술을 가르치는 것이 맞다고 해도 명확하지 않고요.
메타러닝을 가르치는 건가요? 지금 시점에서는 어떤 스케일링 가설을 세워야 할까요? 네, 사실 제가 2017년에도 가지고 있던 똑같은 가설을 가지고 있어요.
2017년에 말씀드린 적이 있을 것 같은데, 'The Big Blob of Compute Hypothesis'라는 문서를 썼어요. 그리고, 아시다시피, 이건 특히 언어 모델의 스케일링에 대한 것이 아니었어요.
GPT-1이 막 나왔을 때쯤에 제가 그걸 썼었죠?
그때는 뭐, 여러 가지 일들 중에 하나였고, 그 당시에는 로보틱스도 있었고요.
사람들은 언어 모델과는 별개의 영역으로 추론을 연구하려고 했습니다. 알파고에서 일어났던 강화 학습의 규모 확장과 비슷한 종류의 일도 있었죠.
그리고, 아시다시피, 그런 일들이 도타(Dota)에서 OpenAI에서 일어났었죠. 그리고, 아시다시피, 사람들은 딥마인드의 스타크래프트(StarCraft), 알파스타(AlphaStar)를 기억하고 있죠.
그래서 좀 더 일반적인 문서로 작성되었습니다. 제가 말씀드린 구체적인 내용은 다음과 같습니다.
그리고 아시겠지만, 음, 매우 중요한 '비터 레슨(Bitter Lesson)'이라는 책이 몇 년 후에 나왔습니다. 그런데 기본적으로 전제하는 가설은 거의 동일합니다. 그 책에서는, 음, 대략 이런 내용을 담고 있습니다.
모든 기발함, 모든 기술, 전부 새로운 방법을 써서 그런 일을 해야 합니다. 그렇게 중요하지 않아요. 몇 가지 중요한 것만 있을 뿐이고, 저는 그걸 일곱 개 정도 나열했다고 생각합니다.
그중 하나는, 가지고 있는 원시 연산 능력의 양입니다.
또 다른 건 가지고 계신 데이터의 양이에요. 그리고 세 번째는 데이터의 품질하고 분포라고 할까요, 그렇죠?
데이터 분포가 굉장히 넓고 다양해야 합니다. 네 번째는, 제가 생각하기에, 얼마나 오래 학습시키느냐겠죠. 다섯 번째는, 달까지 확장할 수 있는 목적 함수가 필요합니다.
사전 학습 목표 함수는 그러한 목표 함수의 한 종류죠, 그렇죠? 또 다른 목표 함수는, 아시다시피, 목표를 가지고 있다는 종류의 강화 학습 목표 함수입니다.
목표를 달성하러 나아가는 거죠. 그 안에는 당연히 수학이나 코딩에서 볼 수 있는 객관적인 보상도 있고, 또 사람들의 피드백이나 더 높은 수준의 RL에서 볼 수 있는 주관적인 보상도 있습니다.
그리고 여섯 번째와 일곱 번째는 정규화나 조건부 같은 것들, 아시다시피, 단순히 수치적 안정성을 확보하는 것들이었습니다. 그래서 대략적인 컴퓨팅 흐름이 이러한 층류 방식으로 흘러가고, 문제에 부딪히지 않도록 하는 것이죠.
그래서 그 가설이었습니다. 그리고 저는 아직도 그 가설을 지지하고 있어요. 그 가설과 일치하지 않는 것을 거의 보지 못했다고 생각합니다.
그리고 사전 학습된 확장 법칙은 우리가 거기에서 보는 것의 한 예시였죠. 그리고 사실, 그런 것들은 계속 진행되고 있습니다. 음, 제가 생각하기에 이제는 널리 보고된 것 같습니다.
저희는 사전 훈련에 대해서도 만족스럽게 생각하고 있어요. 사전 훈련이 계속해서 저희에게 이득을 주고 있거든요. 그런데 지금은 강화 학습에서도 같은 현상이 나타나고 있다는 게 달라진 점이에요.
그래서 저희는 사전 학습 단계와 강화 학습 단계를 거치는 것을 보고 있습니다. 그리고 강화 학습은 사실상 똑같습니다.
음, 아시다시피, 다른 회사들에서도 발표 자료에 관련 내용을 포함하는 경우가 있습니다.
저희는 모델을 학습시킬 때, 예를 들어 수학 경시대회 자료, AIME 같은 것들을 활용한다고 말씀하신 적이 있습니다.
그리고 모델이 얼마나 잘 작동하는지는 훈련한 시간에 따라 로그 선형적으로 증가합니다. 저희도 그렇게 생각합니다. 그리고 그것은 수학 경시대회뿐만이 아닙니다.
다양한 강화 학습 과제들이 있습니다. 위험 요소들도 마찬가지고요. 그래서 사전 학습에서 보였던 동일한 확장세를 강화 학습에서도 관찰하고 있습니다.
리처드 서튼 교수님과 비터 레슨에 대해 말씀하셨네요. 네, 제가 작년에 교수님을 인터뷰했는데, 사실 교수님은 LLM에 대해 꽤 보수적인 분이셨습니다.
만약 제가 이해한 게 맞다면… 혹시 그분 시각이 아닌 다른 관점에서 이 이의를 표현한다면, 대략적으로는 진정한 인간 학습의 핵심을 가진 어떤 것(혹은 어떤 과정)은…
이러한 수십억 달러 규모의 데이터와 컴퓨팅 자원, 그리고 맞춤형 환경을 모두 필요로 한다는 것은 엑셀 사용법을 배우거나, 계좌를 관리하는 방법, 파워포인트 사용법, 그리고 탐색하는 방법을 익히는 데 필요한 일일까요?
웹 브라우저라는 것과 이러한 강화 학습 환경을 통해 이러한 기술들을 구축해야 한다는 사실은, 우리가 핵심적인 인간 학습 알고리즘이 부족하다는 점을 시사합니다. 따라서 규모를 확장하고 있습니다.
잘못된 방향으로 진행될 수도 있다는 점이네요. 그렇다면, 저희가 이처럼 RL 스케일링을 하는 이유에 대한 의문이 제기될 수 있겠습니다. 저희가 만약 실시간으로 학습할 수 있는 인간과 유사한 무언가가 나올 거라고 생각한다면요.
네, 네. 음, 저는 이 문제가 여러 가지를 다르게 생각해야 할 필요가 있다는 것을 보여주는 것 같아요. 진정한 수수께끼가 있는 것 같지만, 아마 중요하지 않을 수도 있을 거예요.
사실, 별로 중요하지 않다고 생각해요. 잠시 RL을 제외하고 생각해 보면, RL은 사실 이 문제에서 사전 훈련과 크게 다르지 않다고 생각해요.
사전 훈련 스케일링을 살펴보면 매우 흥미로웠습니다.
음, 2017년경 알렉스 레드포드가 GPT-1을 만들던 시기를 되돌아보면, GPT-1 이전 모델들은 폭넓은 분포를 제대로 반영하지 못하는 데이터 세트로 훈련되었던 것으로 보이네요.
텍스트, 그렇죠? 굉장히 표준화된, 언어 모델링 벤치마크 같은 것들이 있었죠. 그리고 GPT-1 자체도 제가 기억하기로는 팬픽션으로 훈련을 했던 것 같아요.
그런데, 아시다시피, 문학 작품 같은 거였어요. 제가 알기로는, 전체 텍스트 중에서 아주 작은 비율에 해당하죠. 그리고 그 당시에는 대략 10억 단어 정도였던 걸로 기억합니다.
그래서, 데이터 세트가 작고, 세상에 존재하는 것들의 상당히 좁은 분포를 나타내죠? 마치 세상에 보이는 것들의 좁은 분포와 같은 거죠.
그리고 잘 일반화되지 않았죠. 음, 어떤 것을 더 잘 했을 때, 아, 정확히 뭐라고 불렀더라… 어떤 팬픽 코퍼스 같은 것에서요.
일반화하기에는 다른 부분과 잘 맞지 않을 것 같습니다. 저희는 여러 가지 척도들을 활용해서 모델이 다른 종류의 텍스트들을 얼마나 잘 예측하는지 측정했거든요.
정말 일반화하는 걸 못 보셨어요? 인터넷상의 모든 과제들을 학습하고, 일종의 일반적인 인터넷 스크래핑을 하셨을 때, 그때서야 알게 되셨다는 말씀이신가요?
Common Crawl 같은 것에서, 아니면 Reddit 링크 스크래핑 같은 걸 했는데, GPT-2에서 그랬듯이요. 그런 방식으로 할 때, 비로소 일반화가 시작되는 것 같아요.
그리고 강화 학습에서도 같은 현상을 목격하고 있어요. 처음에 아주 단순한 강화 학습 과제로 시작해서, 수학 경시대회 학습 같은 것들이었죠. 그런 다음, 좀 더 넓은 범위의 학습을 진행하게 되는데, 코드를 과제로 포함시키는 것과 같은 일들이 포함되기도 합니다.
그리고 이제는 다양한 과제들을 많이 시도하고 있습니다. 그리고 점점 더 일반화되는 것을 보게 될 거라고 생각합니다.
그래서 강화 학습과 사전 훈련 측면의 차이를 어느 정도 없애는 것 같아요. 하지만 어쨌든 풀어야 할 문제가 하나 있습니다. 사전 훈련을 할 때, 모델을 사전 훈련할 때, 아시다시피 조삼천억 개의 토큰을 사용하잖아요?
사람들은 또한 수조 개의 단어를 보지 못합니다.
여기서 실제 샘플 효율성의 차이가 발생하는 것 같습니다. 실제로 모델들이 처음부터 시작해서 훨씬 더 많은, 훨씬 더 많은 훈련을 받아야 하는 차이가 있습니다.
하지만 저희는 또한 훈련이 완료된 이후, 만약 긴 컨텍스트 길이를 제공한다면, 그 긴 컨텍스트 길이를 방해하는 유일한 요소는 추론 과정에 있음을 확인합니다.
하지만 만약 컨텍스트 길이를 백만으로 늘린다면, 그 범위 내에서 학습하고 적응하는 능력이 매우 뛰어납니다. 정확한 답은 아직 모르겠지만, 분명 어떤 무언가가 있다고 생각합니다.
사전 훈련 과정이 인간이 배우는 과정과는 좀 다른 것 같아요. 인간의 학습 과정과 인간 진화 과정 사이 어딘가에 있는 것 같네요.
마치, 진화로부터 많은 선입견을 얻는 것 같은, 중간 지점쯤에 있는 것 같아요. 우리 뇌가 그냥 백지 상태가 아니잖아요, 그렇죠? 그 점에 대해 많은 책들이 쓰여졌다고 생각해요. 언어 모델은 훨씬 더 백지 상태에 가깝다고 생각해요.
저희는 문자 그대로 임의의 가중치에서 시작하는 반면에, 인간의 뇌는 이러한 영역들을 모두 가지고 시작합니다. 이것은 모든 입력과 출력에 연결되어 있잖아요. 어쩌면 저희는 사전 훈련을, 그리고 RL도 함께 생각해야 할지도 모르겠습니다.
인류 진화와, 뭐랄까요, 그 중간 지점에 존재하는 어떤 것인 것 같습니다.
모델들이 수행하는 문맥 내 학습은, 장기적인 인간의 학습과 단기적인 인간의 학습 사이의 무언가와 유사하다고 볼 수 있습니다. 즉, 일종의 즉석 학습과 문맥 내 학습을 통해 인간이 배우는 방식과 유사한 개념이라고 이해할 수 있습니다.
음, 아시다시피, 진화, 장기적인 학습, 단기적인 학습, 그리고 인간의 반응이라는 일종의 위계 구조가 있습니다. 그리고 LOM 단계들은 이 스펙트럼을 따라 존재하지만, 반드시 정확히 일치하는 것은 아닙니다.
동일한 지점에서 그렇습니다. 일부 인간의 학습 방식에는 대응하는 것이 없습니다.
LOM들이 어딘가 포인트 사이에 놓이는 것 같아요. 이해되시나요?
네, 그렇습니다. 몇 가지 부분은 아직 조금 혼란스럽습니다. 예를 들어, 이 비유가 진화와 같다면, 샘플 효율성이 낮아도 괜찮다고 할 수 있겠지만, 그렇다면 문맥 내 학습을 통해 극도로 샘플 효율적인 에이전트를 얻게 될까요?
이걸, 저희가 왜굳이 통합하려고 하는 건지, 아시겠지만, 강화 학습 환경 회사들은 보니까, 대체로 이 API를 어떻게 사용하는지, 슬랙을 어떻게 사용하는지, 그리고 다른 도구들을 어떻게 사용하는지 학습시키는 방향으로 움직이는 것 같습니다.
그 종류의 에이전트가 즉흥적으로 학습할 수 있는 수준에 도달했거나, 곧 도달하게 될 것이거나, 이미 도달했다면 왜 그렇게 많은 강조가 이루어지는지 이해하기 어렵습니다.
네, 네. 다른 분들의 중점에 대해서는 말씀드릴 수 없고요, 저희는 어떻게 생각하는지에 대해서만 말씀드릴 수 있습니다.
저희가 생각하는 방식은 목표가 강화 학습에서 가능한 모든 기술을 가르치는 것이 아니라는 점입니다. 사전 훈련에서도 마찬가지인데, 사전 훈련 단계에서 모델이 모든 것을 경험하도록 하는 것은 아니거든요.
아시다시피, 모든 가능한, 음, 단어들이 조합될 수 있는 모든 방법을 다 아실 겁니다, 그렇죠? 모델이 다양한 것들을 학습하고, 그리고, 그런 다음 결과를 도출하는 거죠.
사전 학습 과정에서의 일반화, 바로 GPT-1에서 GPT-2로 넘어가는 전환이었는데, 제가 직접 지켜봤습니다. 모델이 어느 정도 수준에 도달하는 순간들이 있었죠, 마치요. 아, 그 순간들이 기억납니다.
음, 제가 마치, 아, 네, 모델에게 숫자 목록을 그냥 제공하는 거예요. 아시다시피, 아시다시피, 집 가격이 이거예요, 이런 식으로요.
이것은 주택의 면적을 나타냅니다. 그리고 모델은 패턴을 완성하고 선형 회귀 분석을 수행하는데, 아주 훌륭한 것은 아니지만, 수행은 합니다. 하지만 모델은 정확히 그런 상황을 본 적이 없습니다.
그리고 음, 저희가 이러한 강화 학습 환경을 구축하는 것에 있어서, 목표는 대략 5년 또는 10년 전에 이루어진 것과 매우 유사합니다.
수년 전에 사전 훈련을 시작했을 때, 저희는 특정 문서나 기술을 커버하기 위해서가 아니라, 일반화하기 위해서 방대한 양의 데이터를 확보하려고 했습니다.