본문 바로가기

IT개발/Hadoop, Spark3

[Spark] RDD의 사용 실습 & HDFS의 웹 로그 데이터 삽입(Flume) Spark에서 작업하기 전에 해야 할 일웹 로그 데이터를 HDFS에 넣기(Flume이 해줍니다.)Flume이 "로컬 로그 파일"을 읽어서 HDFS의 "/loudacre/weblogs" 디렉토리로 넣는 과정을 수행해야 하겠습니다.Spark는 HDFS에 있는 데이터를 기반으로 작업하기 때문에, 그 데이터가 먼저 존재해야 Spark 코드가 제대로 실행되기 때문입니다. 이 실습에서는 제공된 웹 로그 파일을 로컬 스풀(spool) 디렉토리에 배치하여 "Apache 서버"를 시뮬레이션한 후, "Flume"을 사용하여 데이터를 수집합니다. Flume이 수집한 데이터를 저장할 HDFS 디렉토리 생성 $ hdfs dfs -mkdir /loudacre/weblogs 웹 서버 로그 출력을 위한 로컬 디렉토리 생성, 모든.. 2025. 4. 16.

[Hadoop & Spark] Hadoop과 Spark의 차이(기술적, 아키텍처) 기술적 측면데이터 처리 방식종류HadoopSpark저장 위치디스크 (HDD/SSD)메모리 (RAM)처리 속도비교적 느림매우 빠름(10배)장애 복구매우 강함 (자동 복구)상대적으로 약함실시간 처리불가능가능 Hadoop(안정성에 집중)특징디스크 기반 저장/처리 시스템"무조건 실패하지 않게"가 데이터를 작은 조각으로 나누어 여러 컴퓨터에 저장한 번에 한 가지 일만 하지만 확실히 처리Spark(속도에 집중)특징메모리 기반 처리 시스템데이터를 메모리에 올려 놓고 반복적으로 처리동시에 여러 작업을 빠르게 수행 아키텍처 비교 : 근본적인 설계 차이HADOOPHadoop은 "분산 스토리지(HDFS)"와 "분산 처리(MapReduce)"로 구성된 2계층 아키텍처입니다.배치 처리 중심 : 데이터를 "모아서 한꺼번"에 처리.. 2025. 4. 16.

[Hadoop] 알고 있으면 좋은 기본 개념 1. 가상 머신 (VM)가상 머신은 "물리적인 컴퓨터"를 "가상"으로 만든 것으로, 컴퓨터 안에 또 다른 컴퓨터가 있는 것처럼 동작합니다."VMWare"나 "VirtualBox" 같은 프로그램을 사용해서, 여러 대의 가상 컴퓨터를 하나의 물리적 컴퓨터에서 실행할 수 있습니다. 2. Cloudera와 CDHCloudera는 "빅데이터 분석"과 관련된 도구들을 제공하는 회사입니다. 주로 "Hadoop"을 기반으로 한 도구들을 개발하고 배포합니다.CDH(Cloudera Distribution, including Hadoop)는 Cloudera에서 제공하는 Hadoop과 관련된 도구들이 모여 있는 패키지입니다. Hadoop, Spark, Hive, HBase 등 여러 도구들이 포함되어 있습니다.3. Hadoo.. 2025. 3. 17.

이전 1 다음

티스토리툴바