기술 가이드

체크포인트 샤딩 및 재개 가능한 훈련

모델의 훈련 상태를 조각(샤드)으로 저장하여 메모리나 디스크 제한을 초과하지 않고 거대한 모델을 저장하고 다시 로드할 수 있으며, 충돌이 발생한 실행이 중단된 위치에서 정확히 시작할 수 있도록 하는 기술입니다.

개요

모델의 훈련 상태를 조각(샤드)으로 저장하여 메모리나 디스크 제한을 초과하지 않고 거대한 모델을 저장하고 다시 로드할 수 있으며, 충돌이 발생한 실행이 중단된 위치에서 정확히 시작할 수 있도록 하는 기술입니다. 여러 GPU에서 며칠 또는 몇 주 동안 실행되는 모든 훈련 작업에 필수적입니다.

체크포인트 샤딩 및 재개 가능한 교육은 모델 품질, 인프라 비용, 대기 시간 및 규모에 따른 안정성에 영향을 미치는 기술 구성 요소입니다.

심층 분석

학습 체크포인트는 모델 가중치, 최적화 상태, 학습 속도 일정, 데이터 로더 위치, 난수 생성기 시드 등 재개하는 데 필요한 모든 항목의 스냅샷입니다. 대형 모델의 경우 이 스냅샷은 수백 기가바이트에 달할 수 있으며 단일 파일이나 단일 시스템의 메모리에 비해 너무 큽니다. 체크포인트 샤딩은 해당 스냅샷을 여러 파일과 여러 순위로 분할하므로 각 GPU는 자체 슬라이스만 병렬로 작성합니다. 그런 다음 재개 가능한 훈련은 해당 샤드를 다시 로드하고 전체 상태를 정확하게 복원합니다. 이것이 없으면 200시에 충돌이 발생하는 여러 주간의 실행을 처음부터 다시 시작해야 합니다. PyTorch Distributed Checkpoint, DeepSpeed ​​및 Hugging Face Hub의 분할된 safetensor 형식과 같은 프레임워크가 이러한 루틴을 만듭니다.

기술적 통찰력

샤딩은 분산 훈련이 이미 (데이터, 텐서 또는 ZeRO 병렬 처리를 통해) 순위에 걸쳐 가중치와 최적화 상태를 분할하기 때문에 작동합니다. 각 순위는 해당 파티션만 직렬화하며, 종종 게으른 메모리 매핑 로드를 허용하는 안전 텐서와 같은 형식으로 직렬화됩니다. 인덱스 파일은 매개변수 이름을 샤드 파일에 매핑합니다. 결정론적으로 재개하기 위해 시스템은 RNG 상태, 최적화 단계 수 및 정확한 데이터로더 오프셋도 유지하므로 재실행 시 동일한 배치 시퀀스가 ​​재생산됩니다.

체크포인트 샤딩 및 재개 가능한 교육 마스터하기

모델의 훈련 상태를 조각(샤드)으로 저장하여 메모리나 디스크 제한을 초과하지 않고 거대한 모델을 저장하고 다시 로드할 수 있으며, 충돌이 발생한 실행이 중단된 위치에서 정확히 시작할 수 있도록 하는 기술입니다. 여러 GPU에서 며칠 또는 몇 주 동안 실행되는 모든 훈련 작업에 필수적입니다. 체크포인트 샤딩 및 재개 가능한 교육은 모델 품질, 인프라 비용, 대기 시간 및 규모에 따른 안정성에 영향을 미치는 기술 구성 요소입니다. 깊은 이해를 구축하려면 체크포인트 샤딩 및 재개 가능한 학습을 ​​단일 기능이 아닌 운영 모델로 취급하십시오. 원하는 결과를 정의하고, 가정을 명확히 하고, 시스템이 안정적으로 수행할 수 있는 작업과 여전히 전문가 판단이 필요한 작업을 분리하세요.

실제로 Checkpoint Sharding 및 Resumable Training을 사용하는 강력한 팀은 안정성과 비용에 맞춰 아키텍처, 데이터 및 인프라 선택을 최적화합니다. 명시적인 성공 기준을 문서화하고, 현실적인 데이터 및 워크플로를 기준으로 테스트하며, 일회성 벤치마크 승리보다는 관찰된 실패 패턴을 기반으로 반복합니다. 이론적 이해가 제품, 정책, 운영 전반에 걸쳐 지속 가능한 역량으로 바뀌는 곳입니다.

아키텍처 결정은 수년간 성능과 운영 비용을 결정합니다. 동시에 하나의 벤치마크를 최적화하면 더 광범위한 시스템 약점을 숨길 수 있습니다. 가장 탄력적인 접근 방식은 실험 속도와 거버넌스 규율을 결합하는 것입니다. 즉, 파일럿 실행, 증거 캡처, 결정 로그 게시, 모델 동작, 사용자 기대 및 규제 요구 사항이 발전함에 따라 보호 장치를 지속적으로 업데이트합니다.

전략적 영향

아키텍처 결정은 수년간 성능과 운영 비용을 결정합니다.

아키텍처 결정은 수년간 성능과 운영 비용을 결정합니다. 고품질 배포에서는 이는 측정 가능한 운영 규칙, 소유권 경계 및 반복적인 검토 의식으로 변환되므로 팀은 모호성을 확장하는 대신 자신감을 확장할 수 있습니다.

기술 교육은 팀이 최신 스택뿐만 아니라 올바른 스택을 선택하는 데 도움이 됩니다.

기술 교육은 팀이 최신 스택뿐만 아니라 올바른 스택을 선택하는 데 도움이 됩니다. 고품질 배포에서는 이는 측정 가능한 운영 규칙, 소유권 경계 및 반복적인 검토 의식으로 변환되므로 팀은 모호성을 확장하는 대신 자신감을 확장할 수 있습니다.

더 나은 엔지니어링 선택은 생산 시 신뢰성 사고를 줄입니다.

더 나은 엔지니어링 선택은 생산 시 신뢰성 사고를 줄입니다. 고품질 배포에서는 이는 측정 가능한 운영 규칙, 소유권 경계 및 반복적인 검토 의식으로 변환되므로 팀은 모호성을 확장하는 대신 자신감을 확장할 수 있습니다.

체크포인트 샤딩과 재개 가능한 훈련의 미래

체크포인트는 주기적인 세계 정지 이벤트에서 비동기적이고 거의 무료인 이벤트로 전환되고 있습니다. 훈련이 계속되는 동안 백그라운드에서 샤드를 쓰는 더 많은 인메모리 및 중첩 체크포인트와 1,000개의 GPU 규모에서 흔히 발생하는 노드 장애에도 살아남는 삭제 코딩 및 복제 체크포인트를 기대합니다. 클라우드 개체 저장소와 더 빠른 로컬 NVMe 계층은 샤드를 호스팅하고 세이프텐서와 같은 표준화된 형식은 훈련 재개 및 추론 배포 모두에 대해 안전하고 빠른 부분 로딩을 계속 개선합니다.

실제 구현

수천 개의 GPU에서 실행되는 프론티어 모델은 수백 단계마다 샤딩된 체크포인트를 자동 저장하므로 단일 장애 노드의 비용은 며칠이 아닌 몇 분 밖에 걸리지 않습니다.

Hugging Face는 사용자가 하나씩 다운로드하고 로드할 수 있도록 여러 safetensor 샤드와 index.json으로 대규모 공개 모델을 배포합니다.

연구원이 중단 없이 계속되도록 정확한 최적화 모멘텀, 걸음 수 및 데이터로더 위치를 복원하는 미세 조정을 재개합니다.

빈번한 샤딩된 체크포인트를 통해 작업이 제거되고 일정이 변경되더라도 살아남을 수 있는 저렴한 선점형 클라우드 GPU에 대한 스팟 인스턴스 교육입니다.

구현 패턴

체크포인트 샤딩과 재개 가능한 훈련의 실제 사례

수천 개의 GPU에서 실행되는 프론티어 모델은 수백 단계마다 샤딩된 체크포인트를 자동 저장하므로 단일 장애 노드의 비용은 며칠이 아닌 몇 분 밖에 걸리지 않습니다.

수백 단계마다 샤딩된 체크포인트를 자동 저장하는 수천 개의 GPU에서 실행되는 프론티어 모델은 실패한 노드 하나에 며칠이 아닌 몇 분만 소요됩니다. 팀은 일반적으로 품질 임계값을 미리 정의하고, 엣지 케이스에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

체크포인트 샤딩과 재개 가능한 훈련의 실제 사례

Hugging Face는 사용자가 하나씩 다운로드하고 로드할 수 있도록 여러 safetensor 샤드와 index.json으로 대규모 공개 모델을 배포합니다.

Hugging Face는 대규모 개방형 모델을 다수의 safetensor 샤드와 index.json으로 배포하여 사용자가 하나씩 다운로드하고 로드할 수 있도록 합니다. 팀은 일반적으로 품질 임계값을 미리 정의하고, 엣지 케이스에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

체크포인트 샤딩과 재개 가능한 훈련의 실제 사례

연구원이 중단 없이 계속되도록 정확한 최적화 모멘텀, 걸음 수 및 데이터로더 위치를 복원하는 미세 조정을 재개합니다.

연구원이 중단 없이 계속 진행하기 위해 정확한 옵티마이저 모멘텀, 단계 수 및 데이터로더 위치를 복원하는 중단된 미세 조정을 재개합니다. 팀은 일반적으로 품질 임계값을 미리 정의하고, 극단적인 경우에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

체크포인트 샤딩과 재개 가능한 훈련의 실제 사례

빈번한 샤딩된 체크포인트를 통해 작업이 제거되고 일정이 변경되더라도 살아남을 수 있는 저렴한 선점형 클라우드 GPU에 대한 스팟 인스턴스 교육입니다.

자주 샤딩된 체크포인트를 통해 작업이 제거되고 일정이 변경되어도 유지되는 저렴한 선점형 클라우드 GPU에 대한 스팟 인스턴스 교육 팀은 일반적으로 품질 임계값을 미리 정의하고, 극단적인 경우에 대한 인적 에스컬레이션 경로를 유지하고, 시간이 지남에 따라 생산성 향상과 오류 비용을 모두 추적할 때 더 나은 결과를 얻습니다.

위험 및 가드레일

!

하나의 벤치마크를 최적화하면 더 광범위한 시스템 약점을 숨길 수 있습니다.

!

인프라 및 유지 관리 비용은 종종 과소평가됩니다.

!

시스템이 더욱 복잡해짐에 따라 보안 및 관찰 가능성의 격차가 커질 수 있습니다.

구현 로드맵

1

구현하기 전에 지연 시간, 품질, 비용 목표를 정의하세요.

구현하기 전에 지연 시간, 품질, 비용 목표를 정의하세요. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

2

현실적인 로드 및 데이터 조건에서 벤치마킹합니다.

현실적인 로드 및 데이터 조건에서 벤치마킹합니다. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

3

오류, 드리프트 및 사용자 영향에 대한 계측기 모니터링.

오류, 드리프트 및 사용자 영향에 대한 계측기 모니터링. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

4

확장하기 전에 롤백 및 사고 대응 경로를 준비하세요.

확장하기 전에 롤백 및 사고 대응 경로를 준비하세요. 각 단계를 증거 게이트로 처리합니다. 기준이 충족되지 않으면 롤아웃을 일시 중지하고 간격을 좁힌 다음 사용을 확장합니다.

계속 탐색하세요