Unicode&UTF&码点关系

转自：https://github.com/acmerfight/insight_python/edit/master/Unicode_and_Character_Sets.md 字符编码你是否认为 ASCII 码就是一个字符，一个字节就是一个字符，一个字符就是 8 比特？你是否认为 UTF-8 就是用 8 比特表示一个字符？如果真的是这样认为这篇文章就很适合你。为什么要有编码？ ...

2019-04-132019-04-13T02:09:27+08:00 13 分钟

K- 近邻算法

概述简单地说，k近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与...

2019-02-272019-02-27T06:18:05+08:00 6 分钟

Pandas入门操作

Pandas导入 import pandas as pd import numpy as np 创建DataFram # 手动穿件数据集 df = pd.DataFrame([ [1001,'Mike',20], [1002,'Bob',21], [1003,'Alice',22], ]) # 从磁盘导入数据集 df = pd.read_excel('c:/U...

2019-02-262019-02-26T07:53:56+08:00 6 分钟

Matplotlib快速入门

什么是 Matplotlib? 简单来说，Matplotlib 是 Python 的一个绘图库。它包含了大量的工具，你可以使用这些工具创建各种图形，包括简单的散点图，正弦曲线，甚至是三维图形。Python 科学计算社区经常使用它完成数据可视化的工作。你可以在他们的网站上了解到更多 Matplotlib 背后的设计思想，但是我强烈建议你先浏览一下他们的图库，体会一下这个库的各种神奇功能。...

2019-02-262019-02-26T06:38:54+08:00 2 分钟

Numpy入门

什么是Numpy NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。 Numpy使用 Numpy导入 import numpy as np 向量操作向量求和 np_arr1=np.array([1,2,3]) np_arr2=np.array([2,3,4]) np_arr1...

2019-02-262019-02-26T06:22:18+08:00 1 分钟

CDH安装指南

CDH安装 1. 准备工作 1.1 环境准备个人电脑一台，操作系统需安装ssh、ftp工具本次安装使用个人电脑使用Win10，ssh工具：xshell、ftp工具：xftp 服务器主机名物理内存(G) CP...

2019-01-292019-01-29T07:04:47+08:00 13 分钟

spark源码分析 - DAGScheduler实现

DAGScheduler实现 1.DAGScheduler的创建 TaskScheduler和DAGScheduler都是在SparkContext创建的时候创建的。其中TaskScheduler是通过org.apache.spark.SparkContext#createTaskScheduler创建的，而DAGScheduler是直接调用构造函数创建的。只不过DAGScheduler...

2019-01-272019-01-27T00:12:26+08:00 12 分钟

spark RPC原理

1. 概述 Spark-1.6以后RPC默认使用Netty替代Akka，在Netty上加了一层封装，为实现对Spark的定制开发，所以了解Spark中RPC的原理还是有必要的 Akka是一个异步的消息框架，所谓的异步，简言之就是消息发送方发送出消息，不用阻塞等待结果，接收方处理完返回结果即可。Akka支持百万级的消息传递，特别适合复杂的大规模分布式系统。Akka基于Actor模型，提供用...

2019-01-012019-01-01T04:10:20+08:00 12 分钟

Spark源码分析 - start-all

版本 spark-1.6 过程分析 start-all.sh # 加载环境 . "${SPARK_HOME}/sbin/spark-config.sh" # 启动Master "${SPARK_HOME}/sbin"/start-master.sh $TACHYON_STR # 启动Worker "${SPARK_HOME}/sbin"/start-slaves.sh $TAC...

2019-01-012019-01-01T00:54:31+08:00 6 分钟

spark源码分析 - submit

下图大致描述了整个过程 spark-submit if [ -z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd "`dirname "$0"`"/..; pwd)" fi # disable randomized hash for string in Python 3.3+ export PYTHONHASHSEED=0 # 调...

2018-12-292018-12-29T07:57:10+08:00 8 分钟

1
...
5
6
7
8
6 / 8

热门标签