第一百零三章大数据分析,数据驱动发现 _《学医路漫漫》

大数据分析，数据驱动发现是计算机技术，统计学，数学的综合应用。

科学范式的改变：1实验或者测量2分析理论3数值模拟4数据驱动。生物就停留在1和2之间。天文学当初产生的数据使得开普勒三大定律和万有引力定律成为可能，理论上，只要单个数据点的成本足够低，我们可以产生大量的数据用于模式识别。复杂的现象需要复杂的数据来理解，提取出模式之后如同公理化体系的构建一样来逼近现实情况。我的野心并不大，能够使用生物信息来解释生命就可以了。具体的应用可以有疾病生物标记物的发现，疾病相关基因的发现等等。

发现目前工作的局限性ce，细化到可以解决的层次—提出可能的解决方案io，最后集成起来。这是计算机科学的分而治之divideandconquer。如此反复，如同迭代，数学的演绎，不断开阔人类的认知边界。机器学习算法也是需要各种反馈来进一步修改参数直至收敛到最优解(如梯度下降法)。

科学发现工作流程：收集处理管理分析1收集数据即实验或者观察2数据整理，以一定的定义好的形式来组织如数据库3数据挖掘，各种相关性的构建，个人认为可以通过贝叶斯推断一样的机制来在一些相关对象的组合中构建起高概率的相关性，可以理解为高维关系的构建是底层关系的累加(微积分基本定理)，以分析数学的思路是在这些复杂对象中总存在这种确定性的关系(不动点，如中值定理)4数据理解，整合到具体的背景5新知识

数据挖掘的方法包括重要的机器学习算法等等，有非监督学习算法如聚类，降维等等，有监督学习如分类回归等等，还有其他的算法如神经网络算法，以及进一步的深度学习。

讲座1：模式识别

万物皆有理，这是我们的信仰，可以理解为一种对关系存在的一种假设。然后就是具体地寻找这种关系，即所谓的模式识别。具体的方法有许多，如分类，回归，更具体的实现有最近邻居法，knn等等。

模式识别其实就是对特定函数的构造，如回归方程的数学解析式y=ax+b，，在假设这些函数的存在之后的构造，就是对参数的确定，使得与真实情况的对比能够维持比较低的误差(误差低于一定程度视为等价)，还有各种指标如正确率，召回率等等。

核方法kernel，本质上也是构造一定的函数来满足一定的需求。

我们可以以足够高维的空间，即每个数据点都具有多个属性，来对现实情况进行建模。理论上可以是无限维的，从而对一切都建模。但是这是没有意义的，因为我们的计算资源不足以支撑，而且我们认为有意义的属性的数量和重要性是呈现幂律发布的，即只有少部分的指标具有更大的重要性。因此降维处理势在必行。这与线性代数的线性无关基地的分解相似，都是以最少的损失来存储数据。比如说pca主成分分析。也可以理解为特征值/向量的提取。

算法的计算需要对特定指标的选择和计算，必须是可量化的，这样才可以更新各种参数，从而收敛停机。如人脸识别，就是通过相关指标的计算来推断哪些区域更可能是目标区域。

讲座2：机器学习介绍

应用的广泛性。本质上是经过训练找到一定的函数或者分类器，能够应用于泛化的数据。

自动编程机—人工智能，从一开始的硬编程，即编码所有规则，在发现其不可能的基础上探求软编程，通过数据学习，对于特定的任务taemeaep来不断改善。如垃圾邮件识别，医疗诊断，广告推荐等等。

大数据:voluy产生速度快，variety多样性，veracity，value价值，从数据提取知识。

对于不同问题，应该选择不同的算法，不存在万能算法包打天下，必须综合考虑得和失。虽然深度学习有这个潜力。我们的目标在于发现生物的不显著效应，如转录的多个影响因素组蛋白乙酰化，转录因子的相互作用等等，并挖掘可能的工作机制如相关蛋白质的作用。

讲座3:数据—数据模型—数据库

数据—信息—知识—原理，金字塔的结构，数量不断减少，但重要性不断提高。

讲座4：神经网络在各个领域发挥重要作用，如语音图像识别，推荐系统，社交网络等等，我们尤其注意其中生物的应用，比如说基因表达芯片的数据分析等等。数据—模型—计算能力的结合，使得我们能够挖掘出统计层次具有意义的模式，能够与一定的生物机制构建相关性。可以有探针式的输入，在库找到相关性的团体。

神经网络的训练需要大规模的矩阵运算，复杂度很高，需要采取一定的优化措施来加速运算:低秩近似loion，网络pruning，ization.

矩阵分解可以减少计算量。稀疏矩阵，降低储存量。不动点节约存储量，运算时间等等，这是一种存在性的假设和改造。相当于将进行先验的概率进行运算，能够更快地收敛到目的最优解。

深度学习:特征提取—学习—分类

本站重要通知:请使用本站的免费小说app,无广告、破防盗版、更新快,会员同步书架,请关注微信公众号 gegegengxin (按住三秒复制) 下载免费阅读器!!

第一百零三章大数据分析,数据驱动发现 (1/1)