深度学习,足够多层次的神经网络,本质上是对特定分类函数的构造,可以从简单的分类函数如relu,oid函数等等,如同微积分基本定理一样构造出高维的原函数,从而能够识别复杂的物体如人脸识别。水印广告测试 水印广告测试我们更加看中其可能在生物科研中对大规模数据的处理所能够挖掘出可能的模式,能够与实际的生物机制构建一定的联系,从而能够开发出一定的技术如pcr,crispr。因为生物多个对象的关系构建可以理解为一个多变量的函数,如房价跟很多因素相关,其复杂的相互作用关系如果随机进行组合会有指数级爆炸的可能性,要构造出一个精确的解析解是很困难甚至由于生物的复杂性而不可能的,于是统计模拟就是一个很好的思路。。而且神经网络的隐藏层就可以视为一种近似,我们认为可以通过经过训练好的神经网络算法的一些参数来提供这些生物对象相互作用的证据,这种迁移学习的背后是假设在不同复杂现象下存在某种普遍的机制,因此是通用的,即图像的一些特征如边缘颜色等等(模式的模式)。这些提取出的特征可能就具有一定的生物学意义。如我们可以找到哪些对象之间的相关性更大,对于生物科研有一定的指导作用,而且更进一步的,我们可以在统计层次来理解各种相互作用,能够针对特定对象的变化对整体的影响做出更好的预测。
生物科研可能需要有科学范式的改变,即以大数据驱动的科学发现,然后和实验彼此促进,不断提高人类对生命的理解。如从非监督算法来挖掘生物大规模数据背后的模式即生物机制。
根据一定的输入,产生一定的输出,可能就具有一定的应用价值,这种函数的映射是我们的追求,是理解世界的一个方式,具体模型的参数确定就是这个黑箱式的函数映射。而且这种映射是可通用的,能够促进社会协作体系的发展,如智能诊断可以大大减轻医生的负担甚至促进技术的提高。如医学影像诊断,通过专家标记的图像和各种诊断,通过深度学习找到相关的特征,经过训练后,能够构建专家识别的特征(做出诊断的依据)和机器学习识别的特征的相关性,从而能够以一定的准确率来给不同图像进行疾病的分类。这个学习的过程和专家从菜鸟的学习是一致的,随着数据量的增加和计算能力的堆积,这些模型可以有越来越好的表现即更高的准确度和更低的错误率,直至逼近理论上的极限。如i竞赛图像分类的准确性已经超越人类。三驾马车:数据+计算力+算法
以实验的思路来不断改进,需要有好的对照,能够基于已有工作有各种创新的思想来不断改进,如不同算法的组合,对原有假设的超越等等调整,并且通过相关指标的变化来论证自己的观点。我们可以使用神经科学和发育生物学等等学科的洞见迁移到机器学习的领域,如hubel发现的神经元只能识别有限的特征,而视觉皮层功能柱能够识别复杂事物。而进一步的,我们可能通过神经环路的组合来构建更为复杂的对象如情感情绪等等。发育的过程也有一定的启发如镶嵌发育和梯度发,有内在的编程也有根据环境的调整。大脑的工作机制,进化论式的生物发育,可能都是某种底层机制导致的如能量最低原理。还有物理也有一定的启发,如海森堡的矩阵力学和薛定谔的波动力学的等价,我们的大规模矩阵运算可以通过量子力学的实验来等价。
因为本质上我们就是通过提取复杂对象的数据来分析,提取出各种特征,在这个基础上重新建模,并根据与现实的差距反过来调整模型(如反向传播算法对参数的调整),直至与现实足够近似,视为等价(数学分析的思路)。我们需要训练好的模型具有一定的鲁棒性和泛化性。各种超参数的调整就是为了逼近某些极值从而能够收敛。为了开发算法,数学十分重要,基础的有微积分,线性代数,概率论和统计学等等。还有各种计算机的知识,程序设计语言,数据结构,算法,计算机组成原理,数据库等等。
数据需要良好的组织形式,即结构化的数据才更好地进行运算。数据的表示十分重要,可以有one-ax函数映射来得出最后的分类。
神经网络基础:
从最简单的二分法(1/0)的实现如逻辑回归等等,到这些分类器的集成,构建更加复杂的分类。
函数的构造需要对参数的确定,前者是选择模型,后者是建立具体模型。这可以理解为一定计算资源的规划问题,希望能够收敛到最佳水平。如同搜索,不可能随便寻找遍历整个空间,需要一定的优化方法如剪枝。于是引入约束条件,即损失函数loion,可以是残差和,本质上都是构造,在利用梯度下降法确定参数的具体的值的时候,能够更快收敛.代价函数coion,是损失函数的加和后平均。当代价函数取得极值时,此时对应的参数就说最佳的参数,即算法收敛。
梯度下降法,需要求解损失函数相对于特定变量的偏导数,以及需要确定学习率a。如w=w-axdj(w)/dw。在一定程度上,导数的求解可以理解为差商(d(x+h)-d(x))/h,只要h足够小,可以视为逼近这个极限,即导数,可以理解为图像的斜率。当然,理论数学可以无限小(连续变化),但计算机的实现是有限的(离散数学的实现),我们只能取一个足够小但并非充分小的值,只要