세션명: AWS 스토리지로 AI 및 ML 워크로드 혁신 가속화 (L200)
일시: 2024.05.17 13:10 ~ 13:50
장소: 코엑스, 3F E홀(E5+E6)
작성자 : CTC 이승희
•
해당 세션을 신청 한 이유 및 해당 세션을 통해 배우고 싶은 것
•
세션에 대한 개략적인 소개
AWS 스토리지 서비스가 어떻게 머신 러닝(ML) 및 생성형 AI 워크로드의 성능과 확장성을 극대화하는지 탐구합니다. AWS의 고성능 스토리지 솔루션을 활용하여 데이터 관리를 최적화하고, AI 및 ML 모델 훈련 및 추론 과정을 가속화하는 방법을 소개합니다. 또한, AWS 스토리지가 다양한 ML 서비스와 어떻게 통합되어 혁신적인 애플리케이션 개발을 지원하는지에 대한 실제 사례와 모범 사례를 소개합니다.
•
리프트 & 시프트 파일 시스템
머신러닝 측면에서 AWS에서 권장하는 리프트 & 시프트 파일 시스템은 FSx for Lustre임.
Lustre는 오픈 소스인데 AWS에서 사용하실 수 있도록 안전 관리형 서비스로 출시한 것임.
뛰어난 확장성을 가지고 있고 완전한 서비스 호환성을 보임
•
FSx for Lustre
Lustre는 직관적이고 일관된 인터페이스라는 장점을 가지고 있음. → 누구나 쉽게 사용 가능
애플리케이션단에서 별도의 변환이 필요 없기 때문에 알고있는 커맨드를 동일하게 쓸 수 있음.
맞춤 메커니즘을 통해서 강력한 PC 일관성을 보장함.
•
학습 워크로드에 대한 비용 최적화 방법
Lustre는 처리량 확장이 가능함.
기존에는 저장 공간에 변화가 있어야만 했으므로 저장 공간에 대한 비용이 발생했지만
저장공간을 확장하지 않고도 처리량 티어를 조절할 수 있음.
이에 따라 read/write성능도 조절할 수 있게 됨.
•
FSx for Lustre와 S3를 사용한 데이터 로딩 최적화
Lustre와 s3를 함께 사용하여 데이터 로딩 시간을 줄일 수 있음.
학습 시간을 상당히 줄일 수 있고 모델 학습은 효율적으로 할 수 있음.
•
FSx for Lustre에서 S3로의 티어링 체크포인트
모델 실행 시 체크포인트를 생성하고, 그 값을 S3로 자동으로 복제되게 함.
S3의 비용이 상대적으로 저렴하고, Lustre의 비용이 상대적으로 비싸기 때문에 추가적으로 사용해볼 수 있는 방법임.
•
Amazon SageMaker에서 Amazon S3 로딩 모드
File mode와 Fast File mode가 있음.
100기가바이트 정도 되는 데이터 셋에 대한 학습을 File mode를 사용을 했을 때 약 28분 정도 걸렸으며, Fast File Mode에서는 약 5분정도 걸린 사례가 있음.
하지만 데이터가 테라바이트를 넘어가게 되면 너무 대용량이기 때문에 fast file mode라 할 지라도 속도가 떨어질 수 밖에 없음.
•
Amazon S3 Express One Zone
2023년도 Amazon S3 Express One Zone 클래스가 출시됨.
이 클래스는 기존 클래스에 비해서 보다 빠른 처리속도를 지원함.
단일 가용 영역에서 제공되는 서비스이며, 동일한 가용 영역에 스토리지와 컴퓨팅 리소스를 함께 배치하여 성능을 더욱 최적화할 수 있으므로 컴퓨팅 비용을 낮추고 워크로드를 더 빠르게 실행할 수 있음.
•
마운트포인트 S3
버킷을 로컬 파일 스텝처럼 사용을 하고자 하는 툴.
최대 30% 빠른 머싱러닝 학습 효과를 가져갈 수 있게 됨.
PyTorch용 S3 커넥터와 오픈소스 프레임워크에서는 마운트 포인트 엑세스를 사용해서 데이터를 조금 더 효과적 빠르게 활용할 수 있을 것으로 기대함.
아직 디렉터리 삭제 기능이 지원되지 않음.
•
결론
이 세션을 들으면서 FSx for Lustre에 대한 깊이 있는 이해를 할 수 있었습니다. Lustre의 뛰어난 확장성과 완전한 서비스 호환성 덕분에 머신러닝 워크로드의 비용을 최적화할 수 있는 방법을 배웠습니다. FSx for Lustre와 S3의 결합을 통해 데이터 로딩 시간을 크게 단축하고, 모델 학습 효율성을 높일 수 있는 점이 인상적이었습니다.