深入浅出强化学习原理入门

Posted on 2020-08-22

第2章马尔可夫决策过程马尔可夫性，当前系统的下一个状态仅与当前状态有关，而与以往状态无关马尔可夫过程，以一定的概率在有限状态下转换，吃饭睡觉打豆豆。。。马尔可夫决策过程，马尔可夫决策过程(S,A,P,R,$\gamma$)，S是有限状态集合，A是有限动作集合，P为状态转移，R是回报函数，$\gamma$是折扣因子，马尔可夫决策过程与马尔可夫过程不同的是它的动作是带转移概率的强化学习的目标是在给定的马尔可夫决策过程中寻找最优策略，这个策略指的是状态到动作的映射，在q-learning中，这个策略就是q表，第一维是状态，第二维是动作策略，所谓策 ...

linux ssr客户端安装

Posted on 2020-08-22

安装ssr客户端git clonelink12```cd path/shadowsocksr-linux-client-CLI/ cp ssrlink12```sudo chmod 777 /usr/local/bin/ssr install```12```ssr config```等同于``` vi /usr/local/share/shadowsocksr/config.json 123456789101112131415161718192021222324{ "server": "69.194.9.xx ...

Untitled

Posted on 2020-08-22

linux安装samba ubuntu16.04安装samba,windows访问安装samba sudo apt-get install samba 修改配置项 vimlink12在末尾添加如下，记得/home/hhq/ 路径下有share这个文件夹 [share] path = /home/hhq/share public = yes writable = yes valid users = hhq create mask = 0644 force create mode = 0644 directory m ...

mxnet工具类

Posted on 2020-08-22

profiler官方http://mxnet.incubator.apache.org/architecture/release_note_0_9.html?highlight=profiler profiler可以用来分析mxnet的性能，比如计算中每一个算子前向所花的时间主要步骤包括设置profiler: 1234profiler开始：* ```mx.profiler.profiler_set_state('run') profiler结束： 1234### 网络可视化```mx.viz.plot_network(net ...

opencv编译

Posted on 2020-08-22

opencv编译12345678910111213141516171819202122下载opencv:https://opencv.org/releases.htmlunzip opencv-3.4.0.zipcd opencv-3.4.0mkdir build && cd buildcmake -D CMAKE_BUILD_TYPE=RELEASE \-D CMAKE_INSTALL_PREFIX=/usr/local \-D WITH_CUDA=on -D ENABLE_FAST_MATH=1 \-D CUDA_FAST_MATH= ...

深度学习(花书)

Posted on 2020-08-22

第一章前言本章节描述了深度学习的发展历史，应用前景，发展趋势，粗略的介绍机器学习如何有别于软件编写的方法-机器学习是机器自己可以获取知识，有别于软件中的硬编码，深度学习的发展历史，那些导致它发展迟缓对手技术，核方法与图模型等。第二章线性代数本章描述线性代数技术，和本科的代数，考研的代数没有太大的区别，除了一些新的概念以往没有接触过的，比如张量，高纬矩阵线性子空间，这个以前可能听过，原始向量线性组合后所能到达的点的集合，$Ax = b$, b就是A向量的线性子空间伪逆，解方程$Ax = B$,无解的情况下求的A的左逆使得$Ax$与B的欧几里 ...

resnet,densenet的反向传播详解

Posted on 2020-08-22

正常网络的反向传播 $z=x \bigotimes W1$, $h=\phi(z)$, $o = h \bigotimes W2$, $L=(o-y)^2$, 初始化网络参数，给个初始值，经过前向传播，图中x,z,h,o的值都是已知的 $\frac{\partial L}{\partial W2}= \frac{\partial L}{\partial o}· \frac{\partial o}{\partial W2}$, o,h是已知的，$\frac{\partial o}{\partial W2}=h$, $\frac{\partial L}{\p ...

darknet转caffe

Posted on 2020-08-22

参考：https://blog.csdn.net/nodototao/article/details/85711703 https://blog.csdn.net/cgt19910923/article/details/83242079 1 修改caffe源码并编译参考安装caffe 2 模型转换安装 pytorch 下载github开源工程https://github.com/marvis/pytorch-caffe-darknet-convert 下载https://github.com/ChenYingpeng/caffe-yolov3/bl ...

int8量化

Posted on 2020-08-22

梯度量化参考： http://on-demand.gputechconf.com/gtc/2017/presentation/s7310-8-bit-inference-with-tensorrt.pdf 目标：将FP32的数据转换为INT8，并且精度不会降低很多为什么：INT8有更高的吞吐量，更低的内存占用挑战：INT8精确度低的问题解决办法：在量化训练好的模型参数和计算的时候最小化信息损失结果：TensorRT已经搞定了这些量化原理一句话原理将fp32的卷积(相乘)转换为int8的卷积(相乘) A = scale_A * QA ...

svm算法原理

Posted on 2020-08-22

间隔与支持向量有类别的数据需要被分为两类，通过一个最优超平面将其分为两部分，推理的时候在最优超平面一边的为一类，在另一边的为另一类，最优超平面定义为$w^Tx+b=0$，模型为$f(x)=w^Tx+b$。现在的问题是如何求得这个最优超平面，根据点到直线的距离，从支持向量到最优超平面的距离为$\frac{wx+b}{|w|}$，求最小距离时，即求支持向量到最优超平面的距离，因为对于支持向量有$wx+b=1$,目标转为$min \ w$ 最优化的目标转化为： $min\frac{1}{2}||w||^2$ $s.t. \ y_i(w^Tx_i+b)> ...