기본 가이드

친칠라 컴퓨팅 최적의 훈련

Chinchilla는 2022년 DeepMind에서 대부분의 대규모 언어 모델이 제대로 훈련되지 않았음을 발견했습니다. 고정된 컴퓨팅 예산의 경우 더 큰 모델을 구축하는 것이 아니라 매개변수와 데이터를 대략 동일하게 확장해야 합니다.

개요

Chinchilla는 2022년 DeepMind에서 대부분의 대규모 언어 모델이 제대로 훈련되지 않았음을 발견했습니다. 고정된 컴퓨팅 예산의 경우 더 큰 모델을 구축하는 것이 아니라 매개변수와 데이터를 대략 동일하게 확장해야 합니다. 이는 업계에서 훈련 데이터와 모델 크기의 균형을 맞추는 방식을 재편했습니다.

Chinchilla Compute-Optimal Training은 핵심 AI 툴킷에 있습니다. 이를 이해하면 다른 AI 주제를 평가하고 비교하기가 더 쉬워집니다.

심층 분석

DeepMind의 Chinchilla 논문에서는 스케일링을 다시 검토하고 400개가 넘는 모델을 훈련하여 최적의 컴퓨팅 균형을 찾았습니다. 헤드라인 경험 법칙: 모델 크기와 훈련 토큰은 매개변수당 약 20개의 훈련 토큰으로 동일하게 증가해야 합니다. 이를 증명하기 위해 그들은 훨씬 적은 토큰으로 훈련된 2,800억 매개변수 Gopher와 동일한 컴퓨팅을 사용하여 1조 4천억 개의 토큰으로 700억 매개변수 모델인 Chinchilla를 훈련했습니다. Chinchilla는 4배 더 작음에도 불구하고 거의 모든 벤치마크에서 Gopher, GPT-3 및 기타 거대 동물을 능가했습니다. 이 교훈은 데이터보다 크기를 선호한다는 이전의 OpenAI 결론을 뒤집었으며, 많은 플래그십 모델이 너무 크고 데이터가 부족하여 성능을 무시하고 있음을 보여주었습니다.

기술적 통찰력

친칠라 적합 손실은 L(N,D) = E + A·N^(-α) + B·D^(-β)로, α와 β는 모두 0.34에 가깝습니다. 이는 매개변수와 데이터가 거의 대칭적으로 기여한다는 의미입니다. 고정된 컴퓨팅 제약 조건(변환기에 대한 컴퓨팅 ≒ 6·N·D) 하에서 이를 최적화하면 균등 스케일링 결과가 생성됩니다. 더 작고 데이터가 풍부한 모델은 추론 시 실행 비용도 저렴하므로 교육뿐만 아니라 배포 시에도 이점이 더욱 커집니다.

Chinchilla 컴퓨팅 최적 교육 마스터하기

Chinchilla는 2022년 DeepMind에서 대부분의 대규모 언어 모델이 제대로 훈련되지 않았음을 발견했습니다. 고정된 컴퓨팅 예산의 경우 더 큰 모델을 구축하는 것이 아니라 매개변수와 데이터를 대략 동일하게 확장해야 합니다. 이는 업계에서 훈련 데이터와 모델 크기의 균형을 맞추는 방식을 재편했습니다. Chinchilla Compute-Optimal Training은 핵심 AI 툴킷에 있습니다. 이를 이해하면 다른 AI 주제를 평가하고 비교하기가 더 쉬워집니다. 깊은 이해를 구축하려면 Chinchilla Compute-Optimal Training을 단일 기능이 아닌 운영 모델로 취급하십시오. 즉, 원하는 결과를 정의하고, 가정을 명확히 하며, 시스템이 안정적으로 수행할 수 있는 작업과 여전히 전문가 판단이 필요한 작업을 분리하세요.

실제로 Chinchilla Compute-Optimal Training을 사용하는 강력한 팀은 먼저 강력한 개념 모델을 구축한 다음 해당 모델을 실제 생산 제약 조건에 매핑합니다. 명시적인 성공 기준을 문서화하고, 현실적인 데이터 및 워크플로를 기준으로 테스트하며, 일회성 벤치마크 승리보다는 관찰된 실패 패턴을 기반으로 반복합니다. 이론적 이해가 제품, 정책, 운영 전반에 걸쳐 지속 가능한 역량으로 바뀌는 곳입니다.

이는 명확한 기술적 주장과 마케팅 언어를 구분하는 데 도움이 됩니다. 동시에 팀마다 동일한 용어를 다르게 사용할 수 있으므로 범위를 조기에 정의하십시오. 가장 탄력적인 접근 방식은 실험 속도와 거버넌스 규율을 결합하는 것입니다. 즉, 파일럿 실행, 증거 캡처, 결정 로그 게시, 모델 동작, 사용자 기대 및 규제 요구 사항이 발전함에 따라 보호 장치를 지속적으로 업데이트합니다.

전략적 영향

이는 명확한 기술적 주장과 마케팅 언어를 구분하는 데 도움이 됩니다.

이는 명확한 기술적 주장과 마케팅 언어를 구분하는 데 도움이 됩니다. 고품질 배포에서는 이는 측정 가능한 운영 규칙, 소유권 경계 및 반복적인 검토 의식으로 변환되므로 팀은 모호성을 확장하는 대신 자신감을 확장할 수 있습니다.

돈이나 시간을 들이기 전에 더 나은 구현 질문을 할 수 있습니다.

돈이나 시간을 들이기 전에 더 나은 구현 질문을 할 수 있습니다. 고품질 배포에서는 이는 측정 가능한 운영 규칙, 소유권 경계 및 반복적인 검토 의식으로 변환되므로 팀은 모호성을 확장하는 대신 자신감을 확장할 수 있습니다.

이해를 공유한 팀은 더 나은 제품, 정책 및 학습 결정을 내립니다.

이해를 공유한 팀은 더 나은 제품, 정책 및 학습 결정을 내립니다. 고품질 배포에서는 이는 측정 가능한 운영 규칙, 소유권 경계 및 반복적인 검토 의식으로 변환되므로 팀은 모호성을 확장하는 대신 자신감을 확장할 수 있습니다.

Chinchilla 컴퓨팅 최적 교육의 미래

Llama 3과 같은 최신 모델은 Chinchilla의 매개변수당 20개 토큰 비율을 의도적으로 훨씬 뛰어넘어 수조 개의 토큰으로 작은 모델을 교육하여 추론을 저렴하게 만들고 차선책인 교육 컴퓨팅을 수용합니다. 좋은 데이터가 희소해지면서 반복되는 시대, 합성 데이터, 품질 필터링에 대한 관심이 높아지고 있습니다. Chinchilla는 여전히 기준점으로 남아 있지만 최적은 일회성 훈련 예산뿐만 아니라 평생 추론 비용에 점점 더 의존하고 있습니다.

실제 구현

동일한 예산에 대해 너무 적은 데이터로 300억 개의 모델을 훈련하는 대신 2조 개의 토큰으로 70억 개의 매개변수 모델을 훈련하는 것을 선택했습니다.

100억 개의 매개변수 모델이 컴퓨팅 최적 지점에 도달하기 위해 약 2,000억 개의 토큰이 필요한 것으로 추정됩니다.

더 큰 경쟁자의 품질과 일치하면서 쿼리당 추론 비용을 줄이기 위해 더 작은 배포 모델을 정당화합니다.

기존 모델을 감사하고 훈련이 부족하다고 결론을 내린 후 매개변수를 늘리는 대신 더 긴 훈련 실행을 계획합니다.

구현 패턴

실제 친칠라 컴퓨팅 최적 훈련

동일한 예산에 대해 너무 적은 데이터로 300억 개의 모델을 훈련하는 대신 2조 개의 토큰으로 70억 개의 매개변수 모델을 훈련하는 것을 선택했습니다.

동일한 예산으로 너무 적은 데이터로 300억 개의 모델을 훈련하는 대신 2조 개의 토큰으로 70억 개의 매개변수 모델을 훈련하기로 선택 팀은 일반적으로 품질 임계값을 미리 정의하고, 극단적인 경우에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

실제 친칠라 컴퓨팅 최적 훈련

100억 개의 매개변수 모델이 컴퓨팅 최적 지점에 도달하기 위해 약 2,000억 개의 토큰이 필요한 것으로 추정됩니다.

100억 개의 매개변수 모델이 컴퓨팅 최적 지점에 도달하기 위해 대략 2,000억 개의 토큰이 필요한 것으로 추정 팀은 일반적으로 품질 임계값을 미리 정의하고, 극단적인 경우에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

실제 친칠라 컴퓨팅 최적 훈련

더 큰 경쟁자의 품질과 일치하면서 쿼리당 추론 비용을 줄이기 위해 더 작은 배포 모델을 정당화합니다.

대규모 경쟁사의 품질과 일치하면서 쿼리당 추론 비용을 줄이기 위해 더 작은 배포 모델을 정당화합니다. 일반적으로 팀은 품질 임계값을 미리 정의하고, 극단적인 경우에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

실제 친칠라 컴퓨팅 최적 훈련

기존 모델을 감사하고 훈련이 부족하다고 결론을 내린 후 매개변수를 늘리는 대신 더 긴 훈련 실행을 계획합니다.

기존 모델을 감사하고 훈련이 부족하다고 결론을 내린 다음 매개변수 증가 대신 더 긴 훈련 실행을 계획합니다. 팀은 일반적으로 품질 임계값을 미리 정의하고, 극단적인 경우에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

위험 및 가드레일

!

팀마다 동일한 용어를 다르게 사용할 수 있으므로 범위를 조기에 정의하세요.

!

벤치마크는 강력해 보이지만 실제 성능은 고르지 않을 수 있습니다.

!

데이터 품질 및 평가 계획을 무시하면 취약한 결과가 발생하는 경우가 많습니다.

구현 로드맵

1

필요한 결과에 대한 일반 언어 정의부터 시작하세요.

필요한 결과에 대한 일반 언어 정의부터 시작하세요. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

2

테스트하기 전에 하나의 성공 지표와 하나의 실패 조건을 선택하세요.

테스트하기 전에 하나의 성공 지표와 하나의 실패 조건을 선택하세요. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

3

세련된 데모 세트가 아닌 대표 데이터를 사용하여 소규모 파일럿을 실행하세요.

세련된 데모 세트가 아닌 대표 데이터를 사용하여 소규모 파일럿을 실행하세요. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

4

Chinchilla Compute-Optimal Training이 도움이 되는 부분과 더 간단한 방법이 더 나은 부분을 문서화하세요.

Chinchilla Compute-Optimal Training이 도움이 되는 부분과 더 간단한 방법이 더 나은 부분을 문서화하세요. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

계속 탐색하세요