说明

试卷原版零星分布在下面截图里面,答案不一定对!

pdf阿里网盘下载

md阿里网盘下载

计算+客观(计算题)

卷积核 **参数量 **22tag

2018-2019 学年第二学期期末试题
(12分)三、下图是一个简单多层卷积结构图,请计算出每层输出的feature map大小和各层的参数量(所有层padding为0)

image-20220531130218844

输入图片尺寸为:3x128x128
第一层卷积:96个大小为3的卷积核,步长为1
第二层池化:96个大小为2的均值池化核,步长为2
第三层卷积:64个大小为3的卷积核,步长为2

more:【一起入门NLP】中科院自然语言处理第4课-卷积神经网络CNN

公式:

求卷积层输出尺寸:output=(N+2xP-F)/stride+1
求池化层输出尺寸:output=(N-F)/stride+1
求卷积层参数个数:(FxFxn+1)xk
求池化层参数个数:池化层没有参数,池化层没有参数,池化层没有参数
N:特征图原始尺寸
P:pad值
stride:步长
F:卷积核尺寸
n:特征图个数
k:卷积核个数
+1:加上一个偏置值

第一层:

特征图原始尺寸N=128
特征图个数n=3
卷积核尺寸F=3
卷积核个数k=96
P=0
stride=1
第一层的输出尺寸:(N+2xP-F)/stride+1=(128+0-3)/1+1=126,因此feature map的大小为:126x126x96✅
第一层的参数量:(FxFxn+1)xk=(3x3x3+1)x96=2688✅

第二层:

上一层的输出尺寸N=126
上一层的特征图个数=上一层核个数n=96
卷积核尺寸F=2
卷积核个数k=96
P=0
stride=2
第二层的输出尺寸:(N±F)/stride+1=(126-2)/2+1=63,因此feature map的大小为:63x63x96✅
第二层的参数量:0 ✅

第三层:

上一层的输出尺寸N=63
上一层的特征图个数=上一层核个数n=96
卷积核尺寸F=3
卷积核个数k=64
P=0
stride=2
第三层的输出尺寸:(N+2xP-F)/stride+1=(63+0-3)/2+1=31,因此feature map的大小为:31x31x64✅
第三层的参数量:(FxFxn+1)xk=(3x3x96+1)x64=55360✅

图卷积网络 22tag

  • 给点+激活函数+权重矩阵,进行图卷积

2018-2019 学年第二学期期末试题

image-20220531130336276

more 【一起入门NLP】中科院自然语言处理第*课-图神经网络GNN(GCN)

image-20220531130439577

原本使用的是下面这个做法,但是考虑到ha,hb都是以行向量的形式给出的,所以这样写应该不正确。

image-20220531130547152

image-20220531130656914

**全连接网络 **22tag

  • 求梯度

2018-2019 学年第二学期期末试题

image-20220531130926747

more 【一起入门NLP】中科院自然语言处理第3课-前馈神经网络DNN(反向传播+梯度下降)

image-20220531131019297

image-20220531131039921

image-20220531131058456

image-20220531131113168

image-20220531134937118

主观(简答题)

纯简答

梯度消失爆炸 22tag

什么是梯度消失和梯度爆炸?

激活函数的误差从输出层反向传播时每一层都要乘激活函数的导数,当激活函数的导数值小于1时,误差经过每一层传递都会不断衰减,当网络很深时甚至消失。这就是梯度消失问题。
如果激活函数的导数值很大,误差经过每一层传递都会不断放大,这就会造成梯度爆炸问题,解决梯度爆炸问题的方法是梯度剪枝。

在误差反向传播过程中,需要对损失函数求导,损失函数描述了标准答案与实际输出的误差,在DNN中,输出是要经过一个激活函数的。这就意味着,损失函数的倒数一定与激活函数的导数有关联关系。

补充:解决梯度消失问题的办法:

选择合适的激活函数
用复杂的门结构代替激活函数
残差结构

优化与正则化

2018-2019 学年第二学期期末试题
🍓 (12分)五、列举至少两种常见的正则化方法,并简单解释其概念;比较Batch Gradient Desent 与 Stochastic Gradient Descent 的差异,写出Batch Normalization的计算方法。

more:【一起入门DeepLearning】中科院深度学习第五课:正则化「Regularization」和优化「Optimization」

两种常见正则化方法:

  • Dropout:在前向传播的过程中,通过让某个神经元以一定的概率P停止工作,从而减少隐藏层结点之间的依赖关系,增强模型泛化性。

  • 参数惩罚(L1正则化/L2正则化):这种方法通过在目标函数中加入惩罚来限制模型的容量,所谓惩罚是指对损失函数中的某些参数做限制,常见的参数范数惩罚方法有L1正则化和L2正则化。

Batch Gradient Desent 与 Stochastic Gradient Descent 的差异:

  • 批量梯度下降算法BGD:针对的是整个数据集,通过对所有样本的计算来求解梯度的方向。每迭代一步,都要用到训练集所有的数据当样本数目很多时,训练过程会比较慢,但是求解的是全局最优解。
  • 随机梯度下降算法SGD:每次仅根据一个样本对模型中的参数进行调整。训练速度快,但是纠结的不是全局最优解

image-20220531131631125

强化学习

image-20220531123910377

强化学习五要素:

  • S:状态
  • A:动作
  • R:(s a)的奖励值分布
  • P:转移概率
  • γ:折扣因子

适合解决该问题的强化学习算法:

  • Actor-Critic算法:该算法由两个部分组成,Actor部分用于生成智能体与环境交互的动作,Critic部分用于对Actor产生的动作进行评价。

强化学习与监督学习和无监督学习的不同:参考:

有监督学习和无监督学习的特点是基于已有的数据,去学习数据的分布或蕴含的其他重要信息。
强化学习它不是基于已有的数据进行学习,而是针对一个环境进行学习;
另外,它的目标不是学习数据中蕴含的信息,而是寻找能够在环境中取得更多奖励的方法。
通俗地说,监督学习的目标只是“弄清楚环境是什么样的”,而强化学习的目标是“在这个环境中生活得更好”。

概括地说,强化学习算法主要涉及到两个组成部分:

其一是通过与环境交互产生大量的数据
其二是利用这些数据去求解最佳策略。

机器学习

2018-2019 学年第二学期期末试题
一、简述机器学习中的3类典型学习方法及其差别?深度学习相对于传统机器学习方法有何优势?

3类机器学习方法:

监督学习:学习目标是用输入标签对(x,y)学习一个在给定输入时可以预测标签(或标签的概率分布)的函数f,即 y ^ = f ( x ) \hat{y}=f(x) y^=f(x)
无监督学习:不提供标签或其他目标。数据由样本集x组成,目标是学习x自身的统计结构。
弱监督学习:与监督学习一样,训练集包括输入标签对(x,y),但是标签y要么是不可靠的出现(有缺失值),要么有噪声(给定的标签是不正确的标签)。

深度学习的优势:

可以应用到很多问题,只要有数据可用
可以应用于分析方法尚不存在的问题
可以用来建立非线性依赖关系模型
即使数据是有噪声的,神经网络也能很快找到这个模式。
即使输入的信息是不完整的也能够给出一些答案
网络容易维护

简答+画图

GRU和LSTM-lstm优点 22tag

image-20220531135138173

2018-2019 学年第二学期期末试题
四、画出GRU和LSTM工作流程图,解释各个门的作用,并比较两者的差异

more:【一起入门NLP】中科院自然语言处理第5课-循环神经网络RNN(BPTT+LSTM+GRU)

image-20220531132032502

LSTM各个门的作用:

遗忘门:决定从细胞状态中丢弃什么信息。
输入门:决定什么样的新信息会被存入细胞状态。
输出门:决定输出什么样的值。

GRU各个门的作用:

更新门:控制当前时刻输出的状态ht中要保留多少历史状态ht-1,以及保留多少当前时刻的候选状态h^t
重置门:决定当前时刻的候选状态是否需要依赖上一时刻的网络状态以及需要依赖多少

LSTM与GRU的差异:

门结构不同
LSTM:输入门+遗忘门+输出门
GRU:更新门+重置门

模型参数不同
GRU比LSTM更加简单,参数更少

对memory 的控制不同
LSTM: 用output gate 控制,传输给下一个unit。
GRU:直接传递给下一个unit,不做任何控制,不会控制并保留内部记忆(c_t)。

补充:LSTM解决了什么问题?

LSTM用来解决普通RNN模型存在的长距离依赖问题:距当前节点越远的节点对当前节点处理影响越小,无法建模长时间依赖.

注意力机制(加权和,如何操作)22tag

2018-2019 学年第二学期期末试题
五、(10分)画出用于机器翻译(或者图像描述)的基于注意机制的编码器-解码器结构示意图,并简要描述注意机制的工作原理。

more:1️⃣【一起入门NLP】中科院自然语言处理第9课-NLP中的注意力机制(Attention)2️⃣【一起入门NLP】中科院自然语言处理第14课-Transfomer以及Transfomer架构生成模型

注意力机制的工作原理:

注意力机制是一个加权求和模块,输入:Q(query),K(key)输出:V(value),表示对于Q而言K有多重要,重要性用V来描述。

注意力机制分为三个步骤:
1. F(Q,Ki):打分函数描述Q和ki之间的关系。
2. softmax(f(Q,Ki)):得到Q对于各个Ki的权重。
3. 加权求和:Att-V = 𝑎1ⅹK1+𝑎2ⅹK2+𝑎3ⅹK3+𝑎4ⅹK4+𝑎5ⅹK5

image-20220531154041176

image-20220531132405393

GAN

2018-2019 学年第二学期期末试题
六、简述Denoising Autoencoder、Generative Advertive Network的特点,并画出他们的网络结构示意图。

Denoising Autoencoder:降噪自动编码机

结构图:

image-20220531132522775

Denoising Autoencoder是在Autoencoder的基础之上,为了防止过拟合问题而对输入的数据加入噪音,使学习得到的编码器W具有较强的鲁棒性,从而增强模型的泛化能力。

补充:Autoencoder(AE)由一个自动编码器和一个自动解码器构成,编码器将原始数据映射到低纬空间,解码器将数据从低纬空间中恢复。

Generative Advertive Network: 生成对抗式网络

结构图:

image-20220531132557087

GAN由两个网络构成:G(Generator)和D(Discriminator),生成网络G的目标就是尽量生成真实的数据去欺骗判别网络D。而D的目标就是尽量把G生成的数据和真实的数据分别开来。这样,G和D构成了一个动态的“博弈过程”。- 在最理想的状态下,G可以生成足以“以假乱真”的数据G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。

优点:抽样(或生成)很简单、训练不涉及最大似然估计(MLE)、鲁棒过拟合,因为生成器从未看到训练数据、经验上,GANs擅长捕捉分布的模态。

开放题

大作业

2020-2021 学年第二学期期末试题
七、(15 分)简述对于分组大作业(project)中所完成工作的研究方向的理解和评价,近期的研究进展,已有代表性工作的优缺点,以及该领域未来可能的发展方向(不低于 150 字)。

大作业:结合注意力和时空融合图的在线式交通流预测

研究方向的理解与评价:

不同道路之间存在复杂的空间依赖关系和时间依赖的动态变化趋势。交通流预测是根据T个时间步的历史观测数据学习一个函数f,来预测未来T’个时间步的交通特征数据(速度、流量等)。

交通预测在智能交通系统中起着至关重要的作用。准确的交通预测可以辅助路线规划,指导车辆调度,缓解交通拥堵。由于道路网络中不同区域之间复杂且动态的时空依赖性,该问题具有挑战性。

近期研究进展(略):

已有代表性工作的缺点(优点略):

独立的时序预测模块缺乏对节点间空间依赖的动态建模
现有基于时空融合图的方法无法有效融合不同时间尺度的时序特征
离线预测方法无法适应不断变化的时序信息

未来可能的发展方向:

引入记忆功能的神经网络来建模更长时间序列依赖关系
采取更有效的不同细粒度信息融合方式改进层融合模块
改进 GCL 层中时空联合信息与时空分离信息的融合方法
提升 GCM 结构对边缘时间序列片的信息利用以修正偏差

设计题

2020-2021 学年第二学期期末试题
六、(35 分)从以下主题中选择一个主题,根据本课程所讲授的内容进行方案设计。

可能的主题:
现在想利用某短视频软件查找某一内容的短视频,输入的是文字搜索。这需要涉及视频内容理解以及跨模态的匹配,要求内容相关而不是仅仅主题匹配。需要考虑实际应用中可能存在“脏数据”的问题,例如主题是“我今天很开心”,但是视频内容是一段做饭的视频,语义上存在联系,但并不是非常紧密。
有一段很长的视频,我们仅对其中的某一个情节感兴趣。如果输入一句话或几个关键字,就可以定位到关键帧的位置,能够极大地提升我们的效率。但长视频存在时间较长且其中存在大量相似帧的问题,会给准确定位带来一定的困难。
随着信息技术的发展,我们面对的信息规模呈现爆炸式的增长。对于多样繁杂的信息,多文档摘要任务就变得非常重要。多文档摘要是把同一个主题下的多个文本描述的主要信息按压缩比提炼出一个文本,可以提高我们的阅读效率。现阶段多文档摘要主要是基于句子的相似性,但相同的句意可以有不同的表达方式,特别是风格不同的作者所写的句子,会给句子间相似性的评估带来一定困难。

自己选择主题,并简要描述一下该主题(简述基本的任务定义,以及想要在该任务中解决的问题)。

1)(15 分)列出所选的主题,写出该问题可能的解决思路,可以画出整体的解决方案流程图,或简述解决的步骤,并进行相应的解释说明,例如该方案中包含哪些模块,每个模块的功能以及可能涉及到哪些深度学习的结构等(不低于200 字)。

2)(4 分)针对 1)中的解决方案,选择训练时使用的损失函数,并简述一下为什么采取这样的选择(若涉及的损失函数有多种,需要列出损失函数的结合方式;若有多种解决方案,可以分别列出)?

3)(4 分)使用该设计方案在解决实际场景中的任务时应该注意哪些问题(需要考虑实验室环境和实际应用场景的差异性,实验室环境中往往会忽略或简化实际应用场景中的一些影响因素)?

4)假如在模型训练过程中发现了以下问题,请分析每个问题出现的原因,并提出可能的解决方案。
① (4 分)梯度消失或梯度爆炸

② (4 分)模型在训练集上的性能不佳,损失函数值较大

③ (4 分)模型在训练集上表现良好,但是在测试集上表现较差

其他

  • ppt

    • 前部分基础部分
  • 创新

    • 思路
      • X问题 Y方法 in {新 旧}
    • 方法
      • 新方法 in 看论文
      • 新问题 in 宽领域

参考