+VMware从头完全部署
1.环境及软件准备
Virtual Machine Software
VMware 17
OS
Windows 11
VM OS
CentOS 7.9
Ambari
2.7.4.0
HDP
3.1.4.0
HDP-UTILS
1.1.0.22
Java
JDK8
SQL
Mysql 5.7
Ambari、HDP、HDP-UTILS安装包下载链接如下
用VMware直接创建一个虚拟机,centos79的。
2.准备工作
2.1关闭防火墙
2.2安装JDK
2.3关闭SELinux
然后reboot重启,sestatus查看SELinux状态
2.4安装额外软件包
sshpass:用明文方式自动输入ssh密码,快速免密脚本需要。
pssh:同时对多个机器使用shh执行命令,方便管理后续集群。
2.5克隆额外从节点服务器
使用VMware克隆功能,选择完全克隆。
2.6安装MySQL(主节点)
重置初始密码和免输密码登录
MySQL修改/etc/my.cnf添加以下配置
2.7配置域名映射(主节点)
同时开启三台虚拟机,输入ifconfig查看各个的ip地址
vim /etc/hosts写入映射规则,根据ip追加以下内容
使用脚本[0]将hosts文件传到所有其它主机
脚本2.8配置免密
用脚本[1]快速配置所以主机互相免密
脚本2.9时间同步
2.9.1主服务器时间配置(主节点)
选一台服务器作时间服务器,这里以hdp1作为时间服务器,其他服务器以时间服务器时间为准
授权192.168.137.0-192.168.137.255网段上的所有机器可以从这台机器上查询和同步时间
2.9.2其它服务器时间配置(主节点)
创建一个host.txt文件,写入所有从节点
创建tmp.txt文件,写入以下内容,表示每小时的第29分和59分同步一次时间
然后使用pssh将这个内容写入所有从节点的crontab
3.安装Ambari
3.1配置ambari和hdp的yum源(主节点)
上传安装包并解压那三个压缩包
配置yum源,ip记得改
配置好yum源后使用scp命令将ambari.repo和hdp.repo文件发送到其他节点的/etc/yum.repos.d/目录下
3.2配置和安装ambari-server(主节点)
配置数据库
下载jdbc驱动
将jdbc驱动包放到指定目录
配置ambari-server
启动ambari
3.3 安装、配置ambari-agent节点(所有节点Optional)
你也可以在下一步的2-Install Options中选择Provide your SSH and autoconf就可以跳过这一步
4. 部署HDP
通过ip:8080就可以访问Web UI了,登录ambari,默认用户名和密码都是admin。
点击ClusterInformation --> LAUNCH INSTALL WIZARD开始安装向导
填集群名字
HDP选3.1

OS选Redhat7填入并移除所有其它条目输入节点主机名列表输入节点主机名列
HDP和HDP-UTILS就填/var/www/html/下的对应路径,然后把/var/www/html改成http://hdp1/,比如http://hdp1/hdp/HDP/centos7/3.1.4.0-315/和http://hdp1/hdp-utils/HDP-UTILS/centos7/1.1.0.22/
最后两个选项不要勾选。

输入节点主机名列表,并选择Perform manual registration on hosts and do not use SSH,因为我们刚才已经配置过了ambari-agent。

等待服务器注册,并检查潜在的error,然后点击NEXT
选择需要安装的组件
如果你刚学习大数据,我建议你从以下几个比较基础和常用的组件开始:
HDFS:Hadoop分布式文件系统,是Hadoop的核心组件之一,提供了高可靠性和高吞吐量的数据存储服务
YARN:Hadoop资源管理器,是Hadoop的核心组件之一,负责管理集群中的计算资源,并调度各种应用程序的运行。
MapReduce:Hadoop分布式计算框架,是Hadoop最早提供的编程模型,可以实现批量数据处理
Hive:基于Hadoop的数据仓库系统,支持使用类SQL语言进行数据查询和分析。
HBase:基于Hadoop的非关系型分布式数据库,适合存储和访问海量结构化或半结构化数据。
Spark:基于内存计算的大数据处理框架,支持批处理、流处理、机器学习等多种场景。
像我最开始就只选择了YARN+MapReduce2,毕竟后续可以继续安装
选择每个组件具体安装在哪个服务器上。
ZooKeeper Server每个服务器都要安装
Metrics Collector可以选择装两个
分配主节点和从节点,仅供参考

设置服务对应的密码

配置大数据组件参数,这个根据需求配置即可,如果不了解大数据组件的相关配置可以先使用默认,后续可通过查证资料进行更改配置
Java heap不要太大,20%左右吧。
YARN的内存,50%吧。
展示前面步骤的结果
部署,启动,测试
5. Enjoy
:-)
Last updated
