소개
RDD는 Spark에서 사용할 수 있는 데이터를 다루는 하나의 객체이다. 이 객체는 sc(spark context)라는 객체를 통해 생성될 수 있으며 빅데이터의 클러스터내 분산 저장과 여러 개의 멀티 코어에서 동시에 다뤄지는 것을 가능하게 한다. Spark의 여러 라이브러리들은 RDD를 활용하는 것으로부터 출발하기 때문에 RDD라는 개념 위에서 동작한다고 볼 수 있다.
RDD 생성 방법
RDD를 생성하는 방법은 다양하다.
- 클라우드 환경의 S3에서 사용
- HDFS
- JDBC, ODBC
- ElasticSearch
- Hadoop의 Hive 등
빅데이터를 다루는 소프트웨어이기 때문에 다양한 데이터베이스와 호환될 수 있다. 자바와 파이썬 위에서 동작하는 Spark 특성상 JDBC와도 연결이 가능함을 알 수 있다.
그럼 왜 쓰나?

- 여기서 말하는 low-level은 spark의 라이브러리를 사용하는게 아닌 데이터셋 내에서 데이터를 다루고 싶을 때 사용한다는 소리다.
- 가공되지 않은 날 것 자체의 데이터셋에서 다양한 메소드를 활용하여 데이터를 정렬하고 원하는 정보를 추출할 수 있다.
- Lambda 함수를 활용해 함수형 프로그래밍으로 데이터를 관리할 수 있다.
- 잘 모르겠다.
- DataFrames 나 Dataset의 이점을 미리 활용할 수 있다.
결론
빅데이터의 분산 저장과 처리를 가능하게 해주는 원초적인 데이터 객체이다. 이 데이터 객체를 시작으로 데이터 파이프라인을 설계할 수 있고, 정리된 데이터로 데이터 분석을 할 수 있으며, 나중에는 머신러닝의 기초가 된다.
'Data Engineering' 카테고리의 다른 글
| [Airflow] Slack을 이용한 Airflow 실습 - 3 (Slack Webhook) (0) | 2025.07.01 |
|---|---|
| [Airflow] Slack을 이용한 Airflow 실습 - 2 (Airflow와 DAG) (0) | 2025.06.25 |
| [Airflow] Slack을 이용한 Airflow 실습 - 1 (Docker와 Airflow 연동) (0) | 2025.06.24 |
| [데이터 파이프라인] 2. 일반적인 데이터 파이프라인 (0) | 2025.06.17 |
| [데이터 파이프라인] 1. 데이터 파이프라인 소개 및 설명 (0) | 2025.06.16 |