데이터 엔지니어링

Hadoop의 미래(부제: 춘추전국시대)

라이크나우 2024. 1. 7. 16:44

왜 Hadoop의 미래를 의심하였는가

대학생 때 들었던 전공 수업에서 Hadoop Ecosystem을 처음 접했고 그 이후로 간간히  HDFS 등을 마주칠 기회가 있었다. 입사 후에는 Cloudera의 솔루션을 구축하는 SI업무를 맡아 Hadoop 과 더욱 친숙해졌다.

 

너무 많은 Ecosystem이 있어서 하나하나 알아가고 익숙해지는 데에만 많은 시간이 필요했고 입사한 지 2년이 지난 지금도 모르는게 더 많아서 더 깊게 알아가기 위해 공부를 하고있는데..솔직히 나는 Hadoop이 미래인줄로만 알았다. 

 

하지만 RDB에서 HDFS로 데이터를 이관하기에 가장 만만하고 적당한 툴인 Sqoop이 Apach Attic으로 옮겨졌다는 안내를 보았다. 이해가 가질 않았다. 안정적으로 잘 사용고 있는 도구가 왜 다락방으로 간거지? 다른 대안이 뭐가 있는지 살펴봐도 RDB -> HDFS 의 툴로는 Sqoop을 대체할만한게 보이질 않았다. (Spark 등이 있지만 단순 RDB->HDFS 작업에는 단순하게 사용 가능하고 다양한 옵션을 추가할 수 있는 Sqoop이 가장 좋아보인다.) 

 

그러다가 문득 아 Hadoop 자체가 더이상 미래가 아닌가? 라는 (내딴엔) 무시무시한 의심이 들기 시작했다. 생각해보면 만나는 데이터 엔지니어들도 Hadoop보다는 Snowflake, Databricks 같은 기술을 더 자주 언급하고 있으며 , AWS의 Redshift나 Google의 BigQuery와 같은 클라우드 기반 서비스를 사용하는 경우가 많다. Hadoop에 의존하지 않는 Spark, Flink, NiFi와 같은 오픈 소스 도구들의 사용도 점점 늘어나고 있다. 물론 Docker와 Kubernetes도 데이터 엔지니어링 분야에서 더욱 견고한 자리를 차지하고 있다. 장 큰 위기감을 주는 것은, 최근 새로 들어간 플젝에서는 Hadoop을 제거하고 Databricks를 도입하고 있다는 점이다.

이러한 변화들을 고려하여 앞으로의 공부 방향성을 잡기 위해 더 많은 조사와 학습을 시작했다.

 

Hadoop의 현황

글로벌 Hadoop 시장은 2022년 746억 달러에서 2023년 1,049억 5천만 달러로 40% 가량 성장하였다. 아래 보고서에서는 2027년 4천억 달러 규모로 성장할 것으로 예측한다.

특히 빅데이터 분석시장에서의 Hadoop 시장점유율은 19.18%라고 한다. (다른 기술은 무엇이 있는진 언급되어 있지 않다..)

 

이만큼 "죽지않은" 모습을 보여주는 Hadoop은 여러 기업에서 널리 쓰이고 있고 특히 온프렘환경을 사용할 수 밖에 없는 회사(예: 금용권)는 클라우드 사용이 제한적이므로 자체 Hadoop 시스템을 구축하는 것이 가장 합리적으로 보인다.

 

솔직히 수치를 찾아보니 내 생각보다 훨씬 넓게 사용되고 있었다. Hadoop의 특성 상 데이터를 모두 HDFS에 이관하여 사용 하므로 한번 구축한 후에는 걷어내기 쉽지 않아서 이 추세가 늘진 않더라도 급격히 줄어들 것으로 보이진 않는다. (이를 post-hadoop era라고 표현하기도 하나보다.)

 

https://www.globenewswire.com/news-release/2023/04/05/2641926/0/en/Hadoop-Global-Market-Report-2023.html#:~:text=The%20global%20hadoop%20market%20grew,(CAGR)%20of%2040.7%25.

 

Hadoop Global Market Report 2023

Major players in the hadoop market are Amazon Web Services, Cisco Systems, Inc., Cloudera, Inc., Hitachi Data Systems, Hortonworks, Inc., MapR...

www.globenewswire.com

https://www.knowledgehut.com/blog/big-data/hadoop-future#challenges-faced-by-hadoop%C2%A0

 

What is the Future of Hadoop? Top Trends to Watch

Explore the future of Hadoop and stay ahead with the top trends to watch. Discover how this big data technology is evolving and shaping the data landscape.

www.knowledgehut.com

 

하지만 Hadoop은 왜 의심당하는가

이렇게나 제법 선두주자의 면모를 보이고 있는 Hadoop은 왜 요즘들어 덜 언급되고 다른 대체 기술들에게 밀리는 모습을 보여주는걸까?

 

1. 요구 사항의 변화

기존의 요구사항은 대용량 데이터의 저장에 초점이 맞춰져있었다. Hadoop은 이를 위한 적절한 기술이었다. 하지만 요즘은 신속한 분석, AI/ML가 더 각광받는 추세이고 이를 위한 더 적절한 기술이 대거 등장하고 있다.

 

특히 Hadoop 기반 아키텍처는 실시간 데이터 처리에 적합하지 않을 수 있다. MapReduce 자체는 배치 지향적으로 설계되었고 이 외에 실시간 처리를 위해 내장된 엔진은 특별히 없다. 다만 Apache Kafka, Apache Flink, Apache NiFi 등의 기술을 함께 사용할 수 있도록 진화하고 있으나 기본적으로 실시간 데이터 처리에 최적화 되어있지 않으므로 현재의 요구사항과는 거리가 멀어진다.

 

2. Hadoop 아키텍처의 한계

Hadoop의 가장 기초 철학은  "commodity hardware" 즉 표준 기성서버를 사용하여 강력하고 확장 가능한 분산 시스템을 구축할 수 있다는 점인데, 실상 사용해보면 원하는 만큼의 성능을 위해서는 commodity hardware로는 턱도 없다는걸 알게될 것이다. 어차피 똑같이 비싸다면 확장성과 유연성이 훨씬 좋은 클라우드 기술을 선택하는게 더 합리적으로 보인다..

 

여기에 더해 Hadoop은 스토리지와 컴퓨팅이 결합되어있다. 스토리지와 컴퓨팅이 하나의 서버에서 발생한다는 건 어떤 의미일까?

- (장점) 데이터 지역성 : 데이터가 저장된 곳과 컴퓨팅을 하는 곳이 일치하기 때문에 Network IO가 덜 발생할 수 있다. 대규모 배치처리에는 이 아키텍처가 더 적절하다.

- (단점) 확장성 : 다만 확장성이 좋지 않다. 스토리지와 컴퓨팅 리소스 중 하나만 늘려야하는 경우에도 함께 확장해야하기 때문이다.

- (단점) 복잡성 : 둘이 서로 얽혀있기 때문에 클러스터를 관리하고 로드 밸런스 및 리소스를 관리할 때 더 복잡해진다. 이러한 점은 인건비 문제로 직결된다고 본다.

 

3. 클라우드 기술의 부상 및 지속적인 신기술의 출현

클라우드 네이티브 기술들은 1, 2번의 요구사항을 극복할 여지를 주며 크게 성장하고 있다. 클라우드 기반 데이터 레이크(예: AWS S3)와 데이터 웨어하우스 (예: AWS Redshift, Google BigQuery, Snowflake)는 분리된 스토리지와 컴퓨팅을 제공하여 비율 효율성과 성능 최적화를 도모한다. Databricks와 같은 솔루션도 클라우드 저장소와의 원활한 통합 및 Spark 기반의 효율적인 데이터 처리를 가능하게 한다. 

특히 Databricks는 Hadoop의 대체 기술로 가장 많이 주목받고 있다고 한다. 

https://www.linkedin.com/pulse/18-years-later-hadoop-still-relephant-ramon-chen

 

 

 

결론

이러한 상황을 바탕으로, Hadoop이 중요한 도구이긴 하지만 데이터 엔지니어링 분야에서는 지속적으로 진화하고 있는 새로운 기술과 솔루션에 더 많은 관심을 기울여야 할 것으로 보인다.

요구사항은 계속 변화할 것이고 그에 맞는 새로운 기술들은 지속적으로 출현할 것이다. 여기서 살아남는 기술도 있겠지만 분명히 언제 있었냐는듯이 없어지는 기술도 많을 것이다.

 

이런저런 정리를 하면서 내가 느낀건 Hadoop의 주요 Ecosystem에 대한 공부는 멈추지 말되 새로운 기술이 나오더라도 언제든 적응할 수 있도록 기초를 튼튼히 다져야한다는 점이었다. 솔루션 하나하나를 공부하려고 드는건 조금 무식한 해결방식이 아닌가라는 생각이 들었다. 그보다는 그 기반이 될 도커와 쿠버네티스에 대해서 더 공부해야하며 또, 현재 사용할 수 있는 기술들을 단순히 사용만 하는게 아니라 어떤 부족한 점이 있는지 생각하면서 사용해야겠다. 어떤 솔루션이 어떠한 문제를 해결하여서 각광받는지 알아볼 수 있는 인사이트를 가지도록 노력하는게 중요해보인다. 어떤 요구사항에 응해서 나온 기술인지 맥락을 파악해야 새로운 기술을 접할 때 흔들림없이 데엔으로서의 기량을 유지할 수 있을 것같다.

 

내가 몰입하던 기술이 언제 없어질지 모르는 춘추전국시대에 살고 있기 때문에 지속적으로 관심을 갖고.. 공부하자..!

 

 

Reference

https://www.linkedin.com/pulse/18-years-later-hadoop-still-relephant-ramon-chen

 

18 years later is Hadoop still Relephant?

In 2009 Big Data was the buzzword on everyone's lips. I had joined a Big Data startup called RainStor (acquired by Teradata in 2014).

www.linkedin.com

 

https://kyligence.io/blog/is-hadoop-dead-the-future-of-big-data-and-its-replacement/

 

Is Hadoop Dead? The Future of Big Data Analysis & Cloud Solutions

Is Hadoop Dead? Explore the future of Hadoop in the context of big data analysis and cloud solutions. Discover if Hadoop is still relevant in today's data landscape.

kyligence.io