PARQUET1 [Spark] Spark 내부동작과 클라우드 옵션(Part1. Spark 내부동작) Spark 파일 포맷 Execution Plan Bucketing과 Partitioning 요약 Spark 파일 포맷 데이터는 디스크에 파일로 저장됨: 일에 맞게 최적화 필요 (Unstructured, semi-structured는 사람이 읽을 수 있음, Structured는 사람이 읽을 수 없음) Spark의 주요 파일 타입 특징 CSV JSON PARQUET_2 AVRO 컬럼 스토리지 X X Y X 압축 가능 Y Y Y Y Splittable Y_1 Y_1 Y Y Human readable Y Y X X Nested structure support X Y Y Y Schema evolution X X Y Y Parquet 빼고 모두 행별로 저장한다. Splittable이라 함은 HDFS에서 저장할 때 .. 2024. 2. 13. 이전 1 다음 반응형