Hadoop经过这么多年的发展,已经逐渐成熟,由HDFS和YARN两个重要组件以及相关生态环境组成。
HDFS
YARN
本文就简单介绍下如何搭建分布式的hadoop环境。

hadoop运行需要Java环境,所以第一步需要安装Java

安装Java

apt系执行
sudo apt-get install openjdk-7-jre openjdk-7-jdk
yum系执行

准备工作

ustc已经做了mirror,下载速度会快些
https://mirrors.ustc.edu.cn/apache/hadoop/
hadoop的配置文件在etc目录,都是xml格式的

ssh-kengen -t rsa
ssh-copy-id

格式化namenode(仅需执行一次)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
export HIVE_HOME=/root/hive
export PATH=$HIVE_HOME/bin:$PATH
export HBASE_HOME=/root/hbase
export PATH=$HBASE_HOME/bin:$PATH
export HADOOP_HOME=/root/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
export KYLIN_HOME=/root/kylin
export PATH=$KYLIN_HOME/bin:$PATH
$HADOOP_HOME/bin/hadoop fs -mkdir /tmp
$HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
$HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
https://downloads-hortonworks.akamaized.net/sandbox-hdp-2.6.4/HDP_2.6.4_virtualbox_01_02_2018_1428.ova

http://www.powerxing.com/install-hadoop/