1. Zookeeper 概述 ZooKeeper 是一个典型的分布式数据一致性解决方案,分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 ZooKeeper 一个最常用的使用场景就是用于担任服务生产者和服务消费者的注册中心。 2. Zookeeper 的一些重要概念 ...
Hive Update、Delete操作配置
Hive Update、Delete操作配置 条件 只支持ORC存储格式 表必须分桶 更新指定配置文件 创建存储为ORC的分桶表 CREATE TABLE table_name ( id int, name string ) CLUSTERED BY (id) INTO 2 BUCKETS STORED ...
Impala 详解
Impala 简介 基于Google的Dremel 为原型的查询引擎,Cloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能 Impala是一个分布式、大规模并行处理(MPP)的服务引擎 使用内存进行Hive,兼顾数据仓库、实时、批处理、多并发等优点 Impala各进程角色 State Store Daemon ...
Yarn 详解
1. YARN 的组件以及架构 1.1 Container Container是Yarn框架的计算单元,是具体执行应用task(如map task、reduce task)的基本单位。Container和集群节点的关系是:一个节点会运行多个Container,但一个Container不会跨节点。 任何一个job或application必须运行在一个或多个Container中,在Yarn...
HIVE:JOIN原理、优化
1. Join原理 有两个表User、Order如上,进行Join操作 SELECT u.name, o.orderid FROM user u JOIN order o ON u.uid = o.uid; Hive会将On之后的条件作为Key,将Select的字段作为Value,构建(Key,Value),同时为每张表打...
HDFS系统详解
目录 HDFS设计原理 HDFS核心概念 上传 1. HDFS设计原则 1.1 设计目标 存放非常大的文件 采用流式数据的访问方式;一点一点的读,而不是一次读全部 运行在商业集群上面 1.2 HDFS不适用场景类型 低延迟访问 对延时要求在毫秒级别的应用,不适合采用HDFS。HDFS是为高吞吐数据传输设计的,因...
Hive基础操作
创建数据库 cearte database [if not exists] db.hive; 表的相关操作 -- 创建表 create table [if not exists] student( name string, age int, score int) row format delimited fileds terminated by '\t'; ...
Hive配置安装
1. 安装Mysql 在集群中选择一台节点进行安装mysql yum -y install mariadb-server mariadb 开启服务并配置开机自启 systemctl start mariadb.service systemctl enable mariadb.service ...
Hadoop集群配置
[TOC] 1.多台机器ssh免密配置 修改用户名 # 1.更改hostname hostnamectl --static set-hostname <主机名> scp传输文件 scp <文件路径> <目标账号@地址>: 目标路径 scp /etc/hosts root@hadoop2: /etc/ ssh免密登录 # 配置公钥 ssh-ke...