[Spark] RDD는 무엇인가?

2025. 3. 17. 22:51·Data Engineering

소개

RDD는 Spark에서 사용할 수 있는 데이터를 다루는 하나의 객체이다. 이 객체는 sc(spark context)라는 객체를 통해 생성될 수 있으며 빅데이터의 클러스터내 분산 저장과 여러 개의 멀티 코어에서 동시에 다뤄지는 것을 가능하게 한다. Spark의 여러 라이브러리들은 RDD를 활용하는 것으로부터 출발하기 때문에 RDD라는 개념 위에서 동작한다고 볼 수 있다.

 

 

RDD 생성 방법

RDD를 생성하는 방법은 다양하다.

  1. 클라우드 환경의 S3에서 사용
  2. HDFS
  3. JDBC, ODBC
  4. ElasticSearch
  5. Hadoop의 Hive 등

빅데이터를 다루는 소프트웨어이기 때문에 다양한 데이터베이스와 호환될 수 있다. 자바와 파이썬 위에서 동작하는 Spark 특성상 JDBC와도 연결이 가능함을 알 수 있다.

 

 

그럼 왜 쓰나?

https://www.databricks.com/glossary/what-is-rdd

 

  1. 여기서 말하는 low-level은 spark의 라이브러리를 사용하는게 아닌 데이터셋 내에서 데이터를 다루고 싶을 때 사용한다는 소리다.
  2. 가공되지 않은 날 것 자체의 데이터셋에서 다양한 메소드를 활용하여 데이터를 정렬하고 원하는 정보를 추출할 수 있다.
  3. Lambda 함수를 활용해 함수형 프로그래밍으로 데이터를 관리할 수 있다.
  4. 잘 모르겠다.
  5. DataFrames 나 Dataset의 이점을 미리 활용할 수 있다.

 

결론

빅데이터의 분산 저장과 처리를 가능하게 해주는 원초적인 데이터 객체이다. 이 데이터 객체를 시작으로 데이터 파이프라인을 설계할 수 있고, 정리된 데이터로 데이터 분석을 할 수 있으며, 나중에는 머신러닝의 기초가 된다.

'Data Engineering' 카테고리의 다른 글

[Airflow] Slack을 이용한 Airflow 실습 - 3 (Slack Webhook)  (0) 2025.07.01
[Airflow] Slack을 이용한 Airflow 실습 - 2 (Airflow와 DAG)  (0) 2025.06.25
[Airflow] Slack을 이용한 Airflow 실습 - 1 (Docker와 Airflow 연동)  (0) 2025.06.24
[데이터 파이프라인] 2. 일반적인 데이터 파이프라인  (0) 2025.06.17
[데이터 파이프라인] 1. 데이터 파이프라인 소개 및 설명  (0) 2025.06.16
'Data Engineering' 카테고리의 다른 글
  • [Airflow] Slack을 이용한 Airflow 실습 - 2 (Airflow와 DAG)
  • [Airflow] Slack을 이용한 Airflow 실습 - 1 (Docker와 Airflow 연동)
  • [데이터 파이프라인] 2. 일반적인 데이터 파이프라인
  • [데이터 파이프라인] 1. 데이터 파이프라인 소개 및 설명
BestTomaTo
BestTomaTo
  • BestTomaTo
    기록보관소
    BestTomaTo
  • 전체
    오늘
    어제
    • 분류 전체보기 (36) N
      • Algorithm (8)
      • Computer Science (3)
      • Backend (3)
      • DevOps (4)
        • Kubernetes (3)
        • Docker (0)
      • Data Engineering (8)
      • Cloud (2)
      • AI (1)
      • Security (3) N
        • SK Shieldus Rookies (3) N
      • Reference (2)
      • Project (1)
      • Experience (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    AWS
    airlfow
    동기 프로그래밍
    3단계 모델링
    langchain memory
    홈 서버
    SQLD
    sql 개발자
    해커톤 후기
    langsmith
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
BestTomaTo
[Spark] RDD는 무엇인가?
상단으로

티스토리툴바