Search

AWS 스토리지로 AI 및 ML 워크로드 혁신 가속화

세션명: AWS 스토리지로 AI 및 ML 워크로드 혁신 가속화 (L200)
일시: 2024.05.17 13:10 ~ 13:50
장소: 코엑스, 3F E홀(E5+E6)
작성자 : CTC 이승희
해당 세션을 신청 한 이유 및 해당 세션을 통해 배우고 싶은 것
세션에 대한 개략적인 소개
AWS 스토리지 서비스가 어떻게 머신 러닝(ML) 및 생성형 AI 워크로드의 성능과 확장성을 극대화하는지 탐구합니다. AWS의 고성능 스토리지 솔루션을 활용하여 데이터 관리를 최적화하고, AI 및 ML 모델 훈련 및 추론 과정을 가속화하는 방법을 소개합니다. 또한, AWS 스토리지가 다양한 ML 서비스와 어떻게 통합되어 혁신적인 애플리케이션 개발을 지원하는지에 대한 실제 사례와 모범 사례를 소개합니다.
리프트 & 시프트 파일 시스템
머신러닝 측면에서 AWS에서 권장하는 리프트 & 시프트 파일 시스템은 FSx for Lustre임.
Lustre는 오픈 소스인데 AWS에서 사용하실 수 있도록 안전 관리형 서비스로 출시한 것임.
뛰어난 확장성을 가지고 있고 완전한 서비스 호환성을 보임
FSx for Lustre
Lustre는 직관적이고 일관된 인터페이스라는 장점을 가지고 있음. → 누구나 쉽게 사용 가능
애플리케이션단에서 별도의 변환이 필요 없기 때문에 알고있는 커맨드를 동일하게 쓸 수 있음.
맞춤 메커니즘을 통해서 강력한 PC 일관성을 보장함.
학습 워크로드에 대한 비용 최적화 방법
Lustre는 처리량 확장이 가능함.
기존에는 저장 공간에 변화가 있어야만 했으므로 저장 공간에 대한 비용이 발생했지만
저장공간을 확장하지 않고도 처리량 티어를 조절할 수 있음.
이에 따라 read/write성능도 조절할 수 있게 됨.
FSx for Lustre와 S3를 사용한 데이터 로딩 최적화
Lustre와 s3를 함께 사용하여 데이터 로딩 시간을 줄일 수 있음.
학습 시간을 상당히 줄일 수 있고 모델 학습은 효율적으로 할 수 있음.
FSx for Lustre에서 S3로의 티어링 체크포인트
모델 실행 시 체크포인트를 생성하고, 그 값을 S3로 자동으로 복제되게 함.
S3의 비용이 상대적으로 저렴하고, Lustre의 비용이 상대적으로 비싸기 때문에 추가적으로 사용해볼 수 있는 방법임.
Amazon SageMaker에서 Amazon S3 로딩 모드
File mode와 Fast File mode가 있음.
100기가바이트 정도 되는 데이터 셋에 대한 학습을 File mode를 사용을 했을 때 약 28분 정도 걸렸으며, Fast File Mode에서는 약 5분정도 걸린 사례가 있음.
하지만 데이터가 테라바이트를 넘어가게 되면 너무 대용량이기 때문에 fast file mode라 할 지라도 속도가 떨어질 수 밖에 없음.
Amazon S3 Express One Zone
2023년도 Amazon S3 Express One Zone 클래스가 출시됨.
이 클래스는 기존 클래스에 비해서 보다 빠른 처리속도를 지원함.
단일 가용 영역에서 제공되는 서비스이며, 동일한 가용 영역에 스토리지와 컴퓨팅 리소스를 함께 배치하여 성능을 더욱 최적화할 수 있으므로 컴퓨팅 비용을 낮추고 워크로드를 더 빠르게 실행할 수 있음.
마운트포인트 S3
버킷을 로컬 파일 스텝처럼 사용을 하고자 하는 툴.
최대 30% 빠른 머싱러닝 학습 효과를 가져갈 수 있게 됨.
PyTorch용 S3 커넥터와 오픈소스 프레임워크에서는 마운트 포인트 엑세스를 사용해서 데이터를 조금 더 효과적 빠르게 활용할 수 있을 것으로 기대함.
아직 디렉터리 삭제 기능이 지원되지 않음.
결론
이 세션을 들으면서 FSx for Lustre에 대한 깊이 있는 이해를 할 수 있었습니다. Lustre의 뛰어난 확장성과 완전한 서비스 호환성 덕분에 머신러닝 워크로드의 비용을 최적화할 수 있는 방법을 배웠습니다. FSx for Lustre와 S3의 결합을 통해 데이터 로딩 시간을 크게 단축하고, 모델 학습 효율성을 높일 수 있는 점이 인상적이었습니다.