Hadoop의 다양한 애플리케이션 개발 환경을 상세히 설명하고 구축과 운영에 관한 자세한 정보 수록!
A부터 Z까지 Hadoop에 관한 거의 모든 것!
IT 시스템 세계에서 ‘Hadoop’이라는 소프트웨어 사용이 늘어나고 있다. 이 책을 가지고 있다는 것은 적어도 Hadoop에 관심이 있다는 것이다. 아직 Hadoop에 관해 잘 몰라도 소프트웨어 이름이라는 것 정도는 알고 있겠지만, ‘도대체 용도가 뭐야?’, ‘뭐 하는 거지?’ 등과 같은 초보적인 질문을 하는 사람도 적지 않을 것이다. 또한, 어떤 데이터를 취급하기 위한 미들웨어라는 것은 알고 있더라도 ‘관계형 데이터베이스랑은 어떻게 달라?’, ‘파일시스템이랑 달라?’, ‘처리를 위한 새로운 개념인가?’ 등 다양한 의문이 많을 거라고 생각된다.
Hadoop은 다수의 컴퓨터를 연결하여 대용량 처리를 가능케 하는 오픈 소스 소프트웨어이며, MapReduce라는 자바 프레임워크를 사용해 프로그래밍이 가능하다. 또한, 표준 입출력을 사용할 수 있는 HadoopStreaming, 플로(flow 기술 환경 Pig, SQL 방식 인터페이스인 Hive 등 다양한 개발 환경을 제공하고 있다. 뿐만 아니라 행 지향 데이터베이스인 HBase나 로그 수집기 Fluentd의 기반 시스템으로도 사용할 수 있어서 높은 범용성을 자랑한다.
이 책은 1판에 비해 Hadoop에 관해 전혀 모르는 사람들도 이해하는 데 좀 더 도움이 되도록 개요 부분을 더욱 쉽게 구성했으며, MapReduce 애플리케이션 개발 내용을 추가하고 초보자부터 고급 사용자까지 모두 활용할 수 있도록 했다. 운용성, 가용성 측면도 보강하고 새로운 기술 이슈에 대해서도 추가하였다. 또한, 실제 시스템에서 많이 사용되고 있는 클라우데라(Cloudera의 CDH 4를 기준으로 시스템 확장, 감시, 운영 방법 등 현장에서 바로 적용할 수 있는 최신 노하우까지 담았다.