[Spark] RDD는 무엇인가?

소개

RDD는 Spark에서 사용할 수 있는 데이터를 다루는 하나의 객체이다. 이 객체는 sc(spark context)라는 객체를 통해 생성될 수 있으며 빅데이터의 클러스터내 분산 저장과 여러 개의 멀티 코어에서 동시에 다뤄지는 것을 가능하게 한다. Spark의 여러 라이브러리들은 RDD를 활용하는 것으로부터 출발하기 때문에 RDD라는 개념 위에서 동작한다고 볼 수 있다.

RDD 생성 방법

RDD를 생성하는 방법은 다양하다.

클라우드 환경의 S3에서 사용
HDFS
JDBC, ODBC
ElasticSearch
Hadoop의 Hive 등

빅데이터를 다루는 소프트웨어이기 때문에 다양한 데이터베이스와 호환될 수 있다. 자바와 파이썬 위에서 동작하는 Spark 특성상 JDBC와도 연결이 가능함을 알 수 있다.

그럼 왜 쓰나?

https://www.databricks.com/glossary/what-is-rdd

여기서 말하는 low-level은 spark의 라이브러리를 사용하는게 아닌 데이터셋 내에서 데이터를 다루고 싶을 때 사용한다는 소리다.
가공되지 않은 날 것 자체의 데이터셋에서 다양한 메소드를 활용하여 데이터를 정렬하고 원하는 정보를 추출할 수 있다.
Lambda 함수를 활용해 함수형 프로그래밍으로 데이터를 관리할 수 있다.
잘 모르겠다.
DataFrames 나 Dataset의 이점을 미리 활용할 수 있다.

결론

빅데이터의 분산 저장과 처리를 가능하게 해주는 원초적인 데이터 객체이다. 이 데이터 객체를 시작으로 데이터 파이프라인을 설계할 수 있고, 정리된 데이터로 데이터 분석을 할 수 있으며, 나중에는 머신러닝의 기초가 된다.

'Data Engineering' 카테고리의 다른 글

[Airflow] Slack을 이용한 Airflow 실습 - 3 (Slack Webhook) (0)	2025.07.01
[Airflow] Slack을 이용한 Airflow 실습 - 2 (Airflow와 DAG) (0)	2025.06.25
[Airflow] Slack을 이용한 Airflow 실습 - 1 (Docker와 Airflow 연동) (0)	2025.06.24
[데이터 파이프라인] 2. 일반적인 데이터 파이프라인 (0)	2025.06.17
[데이터 파이프라인] 1. 데이터 파이프라인 소개 및 설명 (0)	2025.06.16

소개

RDD 생성 방법

그럼 왜 쓰나?

결론

'Data Engineering' 카테고리의 다른 글

티스토리툴바