이 글은 LS글로벌의 [빅데이터 처리 분석 실무 표준 과정] 교육 중 Hadoop을 Oracle VirtualBox에 설치하는 실습 과정을 AWS에 설치하는 내용으로 정리하였습니다.
[AS-IS]
VM : Oracle Virtualbox + CentOS 6
[TO-BE]
VM : AWS + Amazon Linux AMI 2017.03.1 (HVM), SSD Volume Type – ami-e21cc38c
그리고, 아래와 같이 총 5개의 내용으로 구성되어 있습니다.
1. EC2(Elastic Compute Cloud) 인스턴스 2개 생성
2. 생성된 EC2 인스턴스 접속 방법
3. Hadoop 설치를 위한 기본 환경 설정
4. Hadoop 설치
5. Hive 설치
주의사항
AWS는 Linux t2.micro 1개의 인스턴스 사용시 1개월 실행을 가정하여 12개월 동안 무료로 사용할 수 있습니다.
이번 설치 과정에서는 Linux t2.micro 2개의 인스턴스를 사용하여 Hadoop을 설치할 예정으로 보름(15일) 실행 시 무료입니다. Hadoop 설치 후 해당 인스턴스를 보름(15일) 이상 계속 사용할 경우 요금이 부과될 수 있으니 요금 부과를 원하지 않을 경우 꼭 인스턴스를 Stop 하거나 Terminate 해야 합니다.
1. EC2(Elastic Compute Cloud) 인스턴스 2개 생성
2. 생성된 EC2 인스턴스 접속 방법
AWS로 로그인 후 EC2 Dashboard에서 [INSTANCES] > [Instances] 를 클릭하면 생성된 인스턴스를 확인할 수 있습니다. 인스턴스 중에 접속할 인스턴스를 선택하고 [Connect]를 클릭합니다.
아래와 같이 팝업 창이 나타납니다.
인스턴스에 접속할 수 있는 방법은 두 가지가 있습니다. 이번 실습과정에서는 첫 번째 방법인 별도의 SSH클라이언트를 사용하는 방법으로 접속을 하려고 하며, 별도의 프로그램은 putty를 사용하겠습니다.
Putty는 무료 SSH 클라이언트 입니다. http://www.putty.org 로 접속하면, “You can download PuTTY here.”를 확인할 수 있습니다. 변경된 URL로 이동합니다.
클릭 후 https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html 를 방문하여 마음에 드시는 putty 패키지를 다운 받으시면 됩니다. 저는 Install 버전 보다는 무설치 버전을 선호하여 Alternative binary files 에 있는 64-bit 용 putty.zip을 다운로드 받았습니다.
다운로드 받은 파일을 원하는 폴더에 압축을 풉니다. 그 후 PUTTYGEN.EXE 파일을 더블 클릭하여 실행합니다.
아래와 같이 실행되면 화면에서 [Load] 를 클릭합니다.
팝업창이 나타나면 파일 이름의 확장자를 All Files (*.*) 을 선택 후 EC2 인스턴스 Launch 할 때 다운로드한 LSG.pem 파일을 선택합니다.
정상적으로 Load 되면 “Successfully imported foreign key …”을 알리는 팝업 창이 보여지며, 해당 Key를 Putty에서 사용할 수 있도록 “Save private key” 를 클릭하여 저장합니다.
아래의 팝업창이 나타나면 “예(Y)”를 클릭하여 원하는 폴더에 저장합니다. Private Key File은 확장자가 *.ppk 입니다.
다운로드 받은 putty 파일의 압축을 풀어놓은 폴더에서 이번엔 PUTTY.EXE를 더블클릭 하여 실행 합니다.
Host Name(or IP address)에 접속하고자 하는 인스턴스의 Public IP를 입력합니다. (Windows PC의 Hosts 파일에 해당 IP에 대한 host명을 등록하셨으면 host명을 입력하셔도 됩니다.)
그 다음 메뉴에서 [Connection] > [SSH] > [Auth]를 클릭합니다.
오른쪽 창의 Private key file or authentication: 의 [Browse…] 을 클릭합니다.
팝업창이 나타나면 PUTTYGEN을 통해 저장한 Private Key 파일인 LSG.ppk를 선택합니다.
다시 왼쪽 메뉴의 [Session]을 클릭하여 현재 설정한 값들을 “Saved Sessions” 에 원하는 이름으로 지정한 후 [Save]를 클릭하여 저장을 할 수 있습니다. 저장을 해놓으면 다음 접속 시에 저장한 Session 명을 선택 후 [Load]하여 사용할 수 있습니다.
인스턴스에 접속을 하기 위하여 [Open]을 클릭합니다.
아래와 같은 팝업 창이 나타나면 [예(Y)]를 클릭합니다.
터미널 창에 login as: 가 나타나면 ec2-user 명을 입력하여 접속합니다.
Login as: ec2-user
다른 하나의 인스턴스도 Putty를 통해 접속할 경우 동일하며, Public IP(혹은 hostname)만 변경하여 접속하면 됩니다. 두 개의 인스턴스 모두 이름으로 저장하여 필요시 Load 하여 사용하면 접속이 필요할 경우 간편하게 할 수 있습니다.