转自:https://github.com/acmerfight/insight_python/edit/master/Unicode_and_Character_Sets.md 字符编码 你是否认为 ASCII 码就是一个字符,一个字节就是一个字符,一个字符就是 8 比特?你是否认为 UTF-8 就是用 8 比特表示一个字符?如果真的是这样认为这篇文章就很适合你。 为什么要有编码? ...
K- 近邻算法
概述 简单地说,k近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与...
Pandas入门操作
Pandas导入 import pandas as pd import numpy as np 创建DataFram # 手动穿件数据集 df = pd.DataFrame([ [1001,'Mike',20], [1002,'Bob',21], [1003,'Alice',22], ]) # 从磁盘导入数据集 df = pd.read_excel('c:/U...
Matplotlib快速入门
什么是 Matplotlib? 简单来说,Matplotlib 是 Python 的一个绘图库。它包含了大量的工具,你可以使用这些工具创建各种图形,包括简单的散点图,正弦曲线,甚至是三维图形。Python 科学计算社区经常使用它完成数据可视化的工作。 你可以在他们的网站上了解到更多 Matplotlib 背后的设计思想,但是我强烈建议你先浏览一下他们的图库,体会一下这个库的各种神奇功能。...
Numpy入门
什么是Numpy NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 Numpy使用 Numpy导入 import numpy as np 向量操作 向量求和 np_arr1=np.array([1,2,3]) np_arr2=np.array([2,3,4]) np_arr1...
CDH安装指南
CDH安装 1. 准备工作 1.1 环境准备 个人电脑一台,操作系统需安装ssh、ftp工具 本次安装使用个人电脑使用Win10,ssh工具:xshell、ftp工具:xftp 服务器 主机名 物理内存(G) CP...
spark源码分析 - DAGScheduler实现
DAGScheduler实现 1.DAGScheduler的创建 TaskScheduler和DAGScheduler都是在SparkContext创建的时候创建的。其中TaskScheduler是通过org.apache.spark.SparkContext#createTaskScheduler创建的,而DAGScheduler是直接调用构造函数创建的。只不过DAGScheduler...
spark RPC原理
1. 概述 Spark-1.6以后RPC默认使用Netty替代Akka,在Netty上加了一层封装,为实现对Spark的定制开发,所以了解Spark中RPC的原理还是有必要的 Akka是一个异步的消息框架,所谓的异步,简言之就是消息发送方发送出消息,不用阻塞等待结果,接收方处理完返回结果即可。Akka支持百万级的消息传递,特别适合复杂的大规模分布式系统。Akka基于Actor模型,提供用...
Spark源码分析 - start-all
版本 spark-1.6 过程分析 start-all.sh # 加载环境 . "${SPARK_HOME}/sbin/spark-config.sh" # 启动Master "${SPARK_HOME}/sbin"/start-master.sh $TACHYON_STR # 启动Worker "${SPARK_HOME}/sbin"/start-slaves.sh $TAC...
spark源码分析 - submit
下图大致描述了整个过程 spark-submit if [ -z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd "`dirname "$0"`"/..; pwd)" fi # disable randomized hash for string in Python 3.3+ export PYTHONHASHSEED=0 # 调...