본문 바로가기

Flume1

[Spark] RDD의 사용 실습 & HDFS의 웹 로그 데이터 삽입(Flume) Spark에서 작업하기 전에 해야 할 일웹 로그 데이터를 HDFS에 넣기(Flume이 해줍니다.)Flume이 "로컬 로그 파일"을 읽어서 HDFS의 "/loudacre/weblogs" 디렉토리로 넣는 과정을 수행해야 하겠습니다.Spark는 HDFS에 있는 데이터를 기반으로 작업하기 때문에, 그 데이터가 먼저 존재해야 Spark 코드가 제대로 실행되기 때문입니다. 이 실습에서는 제공된 웹 로그 파일을 로컬 스풀(spool) 디렉토리에 배치하여 "Apache 서버"를 시뮬레이션한 후, "Flume"을 사용하여 데이터를 수집합니다. Flume이 수집한 데이터를 저장할 HDFS 디렉토리 생성 $ hdfs dfs -mkdir /loudacre/weblogs 웹 서버 로그 출력을 위한 로컬 디렉토리 생성, 모든.. 2025. 4. 16.

이전 1 다음

728x90

티스토리툴바