Aiden Blog

CRC校验算法

背景 CRC即循环冗余校验码:是数据通信领域中最常用的一种查错校验码,其特征是信息字段和校验字段的长度可以任意选定。 循环冗余检查(CRC)是一种数据传输检错功能,对数据进行多项式计算,并将得到的结果附在帧的后面,接收设备也执行类似的算法,以保证数据传输的正确性和完整性。 其根本思想就是先在要发送的数据字节流后面附加几个校验位,生成一个新的字节流发送给接收端。 校验位的生成是通过...

布隆过滤器(BloomFilter)

背景 在平常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。 比如在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。 最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速准确,缺点是浪费存储空间。...

BigTable 论文论文精读

摘要 BigTable是一个分布式存储系统,他可以支持PB级别的数据,包括几千个商业服务器。 Google的许多项目都存储在BigTable上,包括WEB索引、Google Earth 和Google Finance。这些应用对BigTable提出了截然不同的需求,无论是从数据量(从URL到网页到卫星图像)而言,还是从延迟需求(从后端批量处理到实时数据服务)而言。 尽管这些不同的需求,...

C++ 教程 | C++ 类型转换

C++强制类型转换: 在C++语言中新增了四个关键字 static_cast, const_cast, reinterpret_cast 和 dynamic_cast. 这四个关键字都是用于强制类型转换的。 新类型的强制转换可以提供更好的控制强制转换过程,允许控制各种不同种类的强制转换。 C++中风格是 static_cast<type>(content)。 C++ 风...

机器学习篇 | 支持向量机svm

引入 svm 解决二分类问题, 对于样本的向量空间分布集, svm 旨在要寻找一个分割面,将样本集按照分类标签正确的分割开来。我们称这个分割平面为分离超平面。 假设空间样本集是可分割的, 那么总存在无数个超平面可以将样本集分割, 如何才能找到一个最优的超平面? svm 的目标是找一个最优超平面,使得距离超平面最近的点的间隔距离最大化。 这个距离超平面最近的点就是支持向量。 首先定...

机器学习篇 | BP 神经网络引入

BP 神经网络是指使用BP算法训练的前馈神经网络, 神经网络模型形如: 神经网络基本分位三部分 : 输入层对接样本的特征向量 中间包含0到多个隐含层 输出层对应预测结果 神经网络中的每一个神经节点都是一个神经元 常见的激活函数有sigmod, ReLU, tanh 单层神经网络主要用来解决线性可分的问题, 对于不可分的问题, 采用多层神经网络 BP 神经网...

机器学习篇 | 决策树介绍

决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。 决策数有两大优点: 决策树模型可以读性好,具有描述性,有助于人工分析; 效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。 决策树的基本流程 如上所示, 在基于递归模式的划分属性过程中, 在遇到以下三种情况会阻...

机器学习篇 | 多分类模型-Softmax

softmax 模型说明 对输入数据 $\lbrace (x_{1}, y_{1}), (x_{2}, y_{2}), …, (x_{m}, y_{m}) \rbrace$有$k$个类别, 即 $y_{i} \in \lbrace 1, 2, …,k \rbrace$, 那么 softmax 回归主要估算输入数据 $x_{i}$ 归属于每个类别的概率, 即 其中, $\theta...

机器学习篇 | 分类模型-逻辑回归 (Logistic Regression)

简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。 比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 逻辑回归虽然称为回归,实则是一个二分类模型。 sigmod 函数 逻辑回归的核心为sigmod 函数 : \[h_{\theta}(x) = \fr...

机器学习篇 | 机器学习常见距离汇总

对函数 dist(.,.), 若它是一个”距离度量”, 则需要满足一些基本性质 : 非负性 : $dist(x_i, x_j) \geq 0$ 同一性 : $dist(x_i, x_j) = 0$ 当且仅当 $x_i = x_j$ 对称性 : $dist(x_i, x_j) = dist(x_j, x_i)$ 直递性 : $dist(x_i, x_j) \leq dist...