Docker를 보다 Hadoop을 설치 해볼 수 있는 자료가 있어 따라해본다.
역시 대단한 분들이 많이 계시다는~잘 동작한다 ... 무엇이든 시작은 설치 부터~
1. Java 설치를 위해 파이선과 공통개발 패키지 설치
# apt-get install software-properties-common phython-software-propertie
2. Java 설치
# apt-get update
# apt-get install oracle-java8-installer
3. # java -version
java version "1.8.0_60"
Java(TM) SE Runtime Environment (build 1.8.0_60-b27)
Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
4. Hadoop 설치 위해 다운로드
# wget http://mirror.apache-kr.org/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
참고.
현재 최신 버전은 아래 위치에서 확인 가능
http://mirror.apache-kr.org/hadoop/common/current/
5. 압축풀기 및 '/' 및으로 이동
# tar zxvf hadoop-2.7.1.tar.gz
# mv hadoop-2.7.1 /hadoop
6. vim 설치(옵션)
# apt-get install vim
7. ~/.bashrc 파일에 환경변수 추가 후 적용
# vim ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
export HADOOP_HOME=/hadoop
export HADOOP_CONFIG_HOME=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# source ~/.bashrc
# hadoop version
Hadoop 2.7.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 15ecc87ccf4a0228f35af08fc56de536e6ce657a
Compiled by jenkins on 2015-06-29T06:04Z
Compiled with protoc 2.5.0
From source with checksum fc0a1a23fc1868e4d5ee7fa2b28a58a
This command was run using /hadoop/share/hadoop/common/hadoop-common-2.7.1.jar
8. Hadoop 설정 구성/수정
# cd /hadoop/etc/hadoop
# vim core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
<final>true</final>
</property>
</configuration>
# vim hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
# vim mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
# vim hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/hadoop/namenode</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/hadoop/datanode</value>
<final>true</final>
</property>
</configuration>
# vim yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_suffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
9. Hadoop directory에 namenode 폴더 생성
# mkdir /hadoop/namenode
10. namedoe를 format
# hadoop namenode -format
11. ssh 설치
# apt-get install ssh
12. ssh 암호화 키 생성
# ssh-keygen -t rsa -P "-f ~/ssh/id_dsa
# cd .ssh
# cat id_dsa.pub >> authorized_keys
13. ssh 자동 수행 설정 후 적용
# vim ~/.bashrc
#autorun
/usr/sbin/sshd
# mkdir /var/run/sshd
# source ~/.bashrc
14. Hadoop 시작
# start-all.sh
Are you sure you want to continue connecting (yes/no)? yes
15. 구동 상태 확인
# jps
12151 NodeManager
12247 Jps
11528 NameNode
11676 DataNode
11884 SecondaryNameNode
12029 ResourceManager
16. WordCount Test
text 파일 저장을 위한 디렉토리 생성
# hadoop fs -mkdir /input
hadoop 디렉토리의 라이선스 파일을 입력
#hadoop fs -put LICENSE.txt /input
WordCount 수행
#hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-example-2.7.1.jar wordcount /input /output
결과 확인
# hadoop fs -cat /output/*
3