본문 바로가기

Spark8

[Spark] 빅데이터 처리와 Spark 소개(2) 맵 리듀스 프로그래밍 소개 스파크 소개 스파크 데이터 시스템 사용 예들 스파크 실행 옵션 Summary 맵 리듀스 프로그래밍 소개 데이터 셋은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야함 맵리듀스 시스템이 Map의 결과를 Reduce단으로 모아줌 이 단계를 보통 셔플링이라 부르며 네트워크단을 통한 데이터 이동이 생김 스파크도 비슷한 로직으로 구성된다. 맵리듀스 프로그래밍의 핵심: 맵과 리듀스 ❖ Map: (k, v) -> [(k', v')*] 입력은 시스템에 의해 주어지며 입력으로 지정된 HDFS 파일에서 넘어옴 키,밸류 .. 2024. 2. 10.
[Spark] 빅데이터 처리와 Spark 소개(1) 빅데이터 정의 빅데이터 처리가 갖는 특징 하둡의 등장과 소개 Yarn 빅데이터 정의 서버 한대로 처리할 수 없는 규모의 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 기존의 데이터베이스는 분산환경을 염두에 두지 않고 Scale-up의 접근방식을 가져감 Scale-out의 접근은 Scalable 하다고 이야기 할 수 있다. 웹 검색엔진 개발은 진정한 대용량 데이터 처리 요즘은 웹 자체가 NLP 거대모델 개발의 훈련 데이터로 사용되고 있음 구글이 빅데이터 기술의 발전에 지대한 공헌 빅데이터 처리가 갖는 특징 먼저 큰 데이터를 손실없이 보관할 방법이 필요: 스토리지 처리 시간이 오래 걸림: 병렬처리 (이런 데이터들은 비구조화된 데이터일 가능성이 높음: SQL만으로는 부족하다.) 결국 다수의 컴퓨터.. 2024. 2. 9.
반응형