首页
Zcyoop
取消

spark源码分析 - shell

spark-shell function main() { # 对当前系统进行判断,通过spark-submits.sh 启动 org.apache.spark.repl.Main if $cygwin; then stty -icanon min 1 -echo > /dev/null 2>&1 export SPARK_SUBMIT_OPTS...

Spark内部原理

1.Shuffle 1.1 什么是Shuffle Spark是分布式计算系统,数据块在不同节点执行,但是一些操作,例如join,需要将不同节点上相同的Key对应的Value聚集到一起,Shuffle便应运而生。 Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce输入中,这期间涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等,所以说Shuffle...

Spark入门

Spark入门 1.什么是Sark Apache Spark是一个开源集群运算框架。 相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark...

Scala使用

1.概述 Scala是一门主要以Java虚拟机(JVM)为目标运行环境并将面向对象和函数式编程语言的最佳特性综合在一起的编程语言。你可以使用Scala编写出更加精简的程序,同时充分利用并发的威力。由于Scala默认运行于JVM之上,因此 它可以访问任何Java类库并且与Java框架进行互操作,比如Scala可以被编译成JavaScript代码,让我们更便捷、高效地开发Web应用。 Sca...

Hive概念以及架构介绍

Hive概念以及架构 0. 目录 什么是Hive Hive 体系介绍 Hive 执行任务的流程 1. 什么是Hive Hive是Hadoop工具家族中一个重要成员,可以将结构化的数据文件(HDFS)映射为一张数据库表。 Hive 定义了简单的类 SQL 查询语言,被称为 HQL,实现方便高效的数据查询 Hive的本质是将HQL,转换成MapReduce任...

Sqoop 常用操作

Sqoop常用命令 1.预备环境 Hadoop Zookeeper MySql Hive HBase or CDH 2. import 简介 该工具可以将单个关系型数据库的表导入到HDFS上 常用参数 参数名称 功能 --connect <jdbc-u...

Hadoop协同框架-Flume

Flume结构 Source : 用户配置采集数据的方式(Http、LocalFileSystem、Tcp) Channel ——中间件 Memory Channel:临时存放到内存 FIle Channel :临时存放到本地磁盘 Sink :将数据存放目的地(HDFS、本地文件系统、Logger、Http) 常用配置...

Hive与Hbase之间的区别与关系

1. 区别 Hbase:Hadoop database,也就是基于Hadoop的数据库,是一种NoSQL的数据库,主要用于海量数据的实时随机查询,例如:日志明细,交易清单等。 Hive: Hive是hadoop的数据仓库,跟数据库有点差,主要是通过SQL语句对HDFS上结构化的数据进行计算和处理,适用于离线批量数据处理 通过元数据对HDFS上的数据文件进行描...

HBase设计结构和原理

1. 数据模型 1.1 数据模型相关概念 表:HBase采用表来组织数据,表由行和列组成,列划分为若干个列族。 行:每个HBase表都由若干行组成,每个行由行键(row key)来标识。 列族:一个HBase表被分组成许多“列族”(Column Family)的集合,它是基本的访问控制单元。 列限定符:列族里的数据通过列限定符(或列)来定位。 单元格:在HBa...

Zooker选举算法

1. Leader选举算法 可通过electionAlg配置项设置Zookeeper用于领导选举的算法。 到3.4.10版本为止,可选项有 0 基于UDP的LeaderElection 1 基于UDP的FastLeaderElection 2 基于UDP和认证的FastLeaderElection 3 基于TCP的FastLeaderElection 在3.4.1...