parameter2 [Spark] Spark 내부동작과 클라우드 옵션(Part3. Spark EMR) AWS Spark 클러스터 론치 AWS Spark 클러스터 상에서 PySpark 잡 실행 요약 AWS Spark 클러스터 론치 AWS EMR을 통해 Spark 클러스터를 론치해보자 AWS에서 Spark을 실행하려면 EMR (Elastic MapReduce == Yarn == Hadoop) 위에서 실행하는 것이 일반적 EMR이란? AWS의 Hadoop 서비스 (On-demand Hadoop) Hadoop (YARN), Spark, Hive, Notebook 등등이 설치되어 제공되는 서비스 EC2 서버들을 worker node로 사용하고 S3를 HDFS로 사용 AWS 내의 다른 서비스들과 연동이 쉬움 (Kinesis, DynamoDB, Redshift, ...) Spark on EMR 실행 및 사용 과정 A.. 2024. 2. 15. [Spark] Spark 내부동작과 클라우드 옵션(Part2. Spark ML) Spark ML 소개 실습: 머신러닝 모델 만들기 Spark ML 피쳐변환 Spark ML Pipeline 살펴보기 Spark ML 소개 Spark이 제공해주는 머신러닝에 대해 배워보자 Spark ML 소개 (1) 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collaborative Filtering, Dimensionality Reduction(피쳐가 너무 많은 경우). 전체 리스트는 링크 참고 아직 딥러닝은 지원은 아직 미약함 여기에는 RDD 기반과 데이터프레임 기반의 두 버전이존재 spark.mllib vs. spark.ml spark.mllib가 RDD 기반이고 spark.ml은 데이터프레임 기반 spark... 2024. 2. 14. 이전 1 다음 반응형