李玉箫:打开深度学习黑盒,进一步理解AI

李玉箫:打开深度学习黑盒,进一步理解AI

2023 / 06 / 02
深度学习发展至今,带来了人工智能(AI)的发展热潮。现实情况是由于核心AI算法,尤其是深度学习算法,通常运行在类似于“黑盒”中的工作模式下,使得AI在高效高性能的同时,相应的可解释性很难得到同等保证。
 
 
本期马德里欧洲大学(UEM)计算机公开课的分享主题为《深度变分推断框架下的无线感知与AI可解释性》,分享嘉宾李玉箫为清华大学电子工程系的在读博士,研究方向为深度变分推断理论和算法框架,针对包含复杂分布的推断问题,结合深度学习和变分推断方法,设计新的算法方案,主要应用于5G、6G的无线感知技术以及AI的可解释性。
 
 
李玉箫介绍
 
  • 清华大学电子系信息与通信工程方向博士在读· 目前在巴斯克应用数学研究所访学
  • 发表过十余篇所在领域顶刊顶会文章
  • 国内外多个大厂、研究组织实习经历
 
 
李老师将从自己博士论文的研究课题入手,联系行业火爆的ChatGPT,带领我们探索深度学习的黑盒。以下为李老师的讲述——
 
 
01
 
深度学习的背景知识——统计推断
 
 
计算机专业会较多接触概率论与数理统计,其中贝叶斯推断由来已久。它能做很多预测问题,比如说天气预测,是否下雨、湿度温度等;学术一点的,可以进行基因癌症的诊断。
 
 
同时,传统推断也面临着现代挑战。伯努利分布是机器学习中的常用分布,比如说我掷一个硬币,正反面的概率都是二分之一,该随机变量满足伯努利分布。目前更为复杂的问题是,深度学习涉及图像、音视频等信息,那传统的高斯分布或伯努利分布这些简单的参数化分布,就不易解释,即难解分布( intractable distributions)。
 
 
主要有以下三种表现:
 
 
一是隐式分布具有难解分布。就无线感知应用而言,室外容易定位,能测出距离;室内由于多径效应影响,有桌子等障碍物的反射波,就不易观测。
 
 
二是目标变量具有难解分布。就无线感知而言,例如环境分析就是这样一个问题,比如我站在画廊,想知道自己的周围环境,譬如障碍物、房间结构,这时环境变量的分布是难解的,无法像距离一样去物理定义。
  
 
三是隐变量具有相互依赖关系。例如无线感知中的多智能体协作定位,多个智能体提供的信号之间俱有耦合关系,对于推理结果有影响,可以做更复杂的图推理。
 
 
02
 
无线感知与AI可解释性
 
 
结合深度学习的数据知识,以及传统推断的模型知识,让我们可以解读复杂信息。举个例子:
 
 
问:“我到最近柱子的距离是多少?”那么,传统统计推断的物理模型就可以解读,通过识别波峰,用电磁波的传播速度乘以时间就能知道距离;
 
 
如果问:“这幅图的场景有哪些?”图像信号是隐式的,无法建模,无法多步推理,这时通过深度学习可以解出;
 
 
又问:“如何判断我的位置和周围环境的关系?” 这时候需要分析多径信号与复杂场景的关系,用到统计推断和深度学习,破解位置和场景的关系。
 
 
我的研究领域侧重无线感知,在对环境感知后,结合各类其他技术,如AI进行后续的处理,实现对物理环境的重建,对环境进行分析,对环境中的人与物进行识别、分析,触发后续的动作等。
 
 
 
 
03
 
深度变分推断框架是什么?
 
 
谈及深度变分推断框架(Deep Variational Inference Framework),主要分为三类。
 
 
第一类是易解概率(Tractable Likelihood)和独立潜在变量( Independent Latent Variables) 。比如说盲图像超分(Blind Image Super-resolution),旨在对未知退化类型的低分辨率图像进行超分增强,由于其对于实际应用的重要促进作用而受到越来越多的关注。主要分为显示建模(Explicit Modelling)和隐式建模(Implicit Modelling)两类方法,目前最新的方法BSRGAN,通过对多种模糊核、下采样、噪声退化进行随机置换,在不同类型真实退化数据上取得了非常好的效果。
 
 
 
 
第二类是难解概率(Intractable Likelihood)和独立潜在变量( Independent Latent Variables) 。传统方法只能做距离估计,通过网格和深度学习,可以把环境变量做一个二维显示,即信号样本点,随着训练的进行,点会做相应变化。
 
 
第三点是独立潜在变量( Independent Latent Variables) 。比如传统定位每一个点都有一个波形,然后三点画圆,推测位置。现在我想通过图推理,输入一个有连接关系的图,再直接通过深度学习网络,推出图模型。损失函数,由统一模型推出来。  
 
 
04
 
为什么ChatGPT能脱颖而出?
 
 
刚刚我是从无线通信的角度探讨深度学习,能为传统的统计推断框架做什么。接下来我们反其道行之,讨论统计推断可以为深度学习提供什么灵感,联系ChatGPT和大语言模型,来谈一谈。
 
 
统计阶段能为深度学习做什么?深度学习本身,比如说大语言模型,它需要加入第一性原理,加入经典的推断算法吗?我认为是需要的。
 
 
目前的大语言模型主要基于2017年提出的Transformer架构搭建,算法本质上没怎么变,区别在于框架和训练方法。它面向的任务是机器翻译,当然现在也有一些图像,还有强化学习方面的研究。大语言模型分为三类:Encoder-Decoder、Encoder-only、Decoder-only(主流大模型)。ChatGPT4就属于Decoder-only。
 
 
ChatGPT4脱颖而出主要源于指令微调(Instruction Tuning),在多个以Instruction为指导的大量任务进行学习,让模型在理解这些具体的指令后给出答案。
 
 
ChatGPT4的升级之处在于,不用GPT3.5的反馈奖励模型,而采用句式奖励模型GPT4。这也和我的研究联系起来,我会认为把模型知识加进去,比添加新的网络结构去诱导网络更有用、更安全以及更具可解释性。
 
 
05
 
互动答疑
 
 
UEM:请问李老师,如何将深度学习应用于不同的领域?
 
李玉箫:理论领域,目前深度学习应用比较好的是图像和自然语言。再比如带编码的信息信号,机器学习其实很容易在数据集上过拟合,因为自然信号它本身就没有很好的数学模型。但是在传统的,比如脑电信号,还有人体的物理信号,包括我研究的无线信号,UWB、Wi-Fi、蓝牙这种情况下,机器学习现在必须基于传统的方法做一些增益,因为它无法直接使用。
 
然后从更广义的应用层面。我会觉得比如医疗保健,我们可以用医学图像分析疾病诊断、药物发现或者基因学研究,来提高医疗保健的准确性和效率;金融服务领域,可以做一些风险评估、投资管理;交通运输领域,比如智能交通、自动驾驶、交通流量预测;制造业领域,比如智能制造、质量控制,包括能源维护或者开采方面。
 
 
UEM:未来想进入科技大厂,学习哪些领域能帮助我更好地实现职业发展目标?
 
李玉箫:依据我所了解的情况,如果是博士的话,可能更看重方向一点,但有时候需要看是否契合具体的某一个部门的业务方向。就这几年而言,5G、无线通信、物联网这一块比较火,但这一块科研界也还比较欠缺。智能驾驶这几年挺波动的,企业开的薪酬高,需承担一定风险。
 
另外的话,图像自然语言这一块,一个是纯的AI赛道,譬如图像、音视频、自然语言处理等任务,薪酬高,竞争也非常激烈。但是如果拿自然语言去做一些别的事情,比如说医疗、风险评估、城市规划,那这些完全可以应对,市场也有很大的需求。
 
 
/
 
最后,李老师提到:“对于纯AI 研究,我很感兴趣AI在推理和扩展性方面的理论研究,它们有助于帮我们界定深度学习的适用范围和潜在风险。”
 
 
当一个深度学习网络可以识别公园中的一只小狗,我们并不知道这个学习系统到底是聚焦在环境中狗的尾巴上,还是狗所在的草坪。如果机器学习具备举一反三、触类旁通的能力,相信AI的可解释性会大大增强。
 
 
感谢李老师的精彩分享,让我们得以窥探AI深度学习的黑盒子!也欢迎你申请马德里欧洲大学的计算机科学与管理硕士,在职学习,斩获前沿的计算机知识。
 
 
撰文 | Anna Wei
编辑 | Anna Wei

关闭