1、单选(2分):在大数据上使用简单的算法,与在小数据上使用复杂的算法,更有可能出现下列哪种效果? B
A.两者效果类似
B.后者效果更好
C.不具备可比性
D.前者效果更好
2、单选(2分):在大数据时代,数据能够在各行各业得以放心使用主要是由()确保的。 D
A.数据存储能力
B.数据分析能力
C.数据收集能力
D.数据的可靠性
3、单选(2分):以下最可能是机器学习的发展趋势的是(C)。
A.向着结构越来越复杂的机器学习模型发展
B.发展逐渐趋于停滞
C.寻求现有机器学习技术及分析过程的可解释性
D.寻找适用于任何数据集及分析要求的机器学习技术
4、单选(2分):下面哪一项不是“大数据”区别于“小数据”的四个关键特征之一?D
A.数据价值高
B.数据类型多
C.数据量大
D.数据来源广泛
5、单选(2分):2020年开展的第七次全国人口普查,体现了舍恩伯格提出的大数据特征中的哪一项? D
A.效率而非精确
B.相关而非因果
C.种类而非数量
D.全面而非抽样
6、单选(2分):下列不属于过拟合原因的是(A)。
A.训练数据过多
B.模型假设过于复杂
C.特征维度过多
D.噪声过多
7、单选(2分):以下对聚类算法描述正确的是(C)。
A.一般来说,不同的聚类方法得到的聚类结果是完全相同的
B.聚类算法必须已知全部样本的标注
C.一般来说,同一聚类簇中的样本间的相似度比不同聚类簇间样本的相似度更高
D.聚类算法必须已知样本将分成几类
8、单选(2分):以下属于利用深度学习方法处理时序数据的是(D)。
A.利用KNN根据用户在平台的行为序列判断对某电商平台用户是否是网球爱好者
B.利用DNN根据花瓣颜色、尺寸等一系列特征判断其是否为玫瑰花
C.通过CNN根据一张256x256大小的全彩图片判断其中是否包含猫
D.利用RNN根据一段单人朗读录音判断朗读者是否为女性
9、单选(2分):可以对数据进行降维的可视化处理方法是(D)。
A.热力图
B.直方图
C.散点图
D.TSNE
10、单选(2分):卷积神经网络中,输入图片为RGB3个通道,每个通道大小为32x32,即输入大小为32x32x3,单个卷积核大小为5x5x3,卷积核个数为6,步长为1,无补边,则输出的大小为(A)。
A.27x27x6
B.14x14x3
C.27x27x3
D.14x14
11、单选(2分):下列常见的保隐私技术中,哪一个技术是在用户端加入噪声且具有较强的隐私保护能力(D)。
A.安全多方计算
B.同态加密
C.集中式差分隐私
D.本地差分隐私
12、单选(2分):下列哪种方法属于常见的信息保隐私技术且具有较好的数据保真度(A)。
A.对称加密方法
B.K匿名方法
C.L多样性方法
D.差分隐私方法
13、单选(2分):在一个神经网络中,下面哪种方法可以用来处理过拟合?B
A.Dropout
B.都可以
C.正则化(regularization)
D.分批归一化(Batch Normalization)
14、单选(2分):假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含少量的一种车(福特野马),而目标变为定位车辆在照片中的位置,下面哪种方法可行?C
A.除去神经网络中的最后一层,冻结所有层然后重新训练
B.所有答案均不对
C.对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
D.使用新的数据集重新训练模型
15、单选(2分):随机森林的数据集的选取是(A)的。
A.有放回
B.无放回
C.不确定
D.都含有
16、单选(2分):已知:大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。每一个神经元都有输入、处理函数和输出。神经元组合起来形成了网络,可以拟合任何函数。为了得到最佳的神经网络,我们用梯度下降方法不断更新模型。给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?C
A.当这是一个图形识别的问题时
B.有维度更高的数据
C.加入更多层,使神经网络的深度增加
D.有卷积运算操作
17、单选(2分):下列哪一项在神经网络中引入了非线性?B
A.卷积函数
B.修正线性单元(ReLU)
C.正则化
D.随机梯度下降
18、单选(2分):以下关于神经网络的说法中,正确的是(C)。
A.以上都不正确
B.增加网络层数,总能减小训练集错误率
C.增加网络层数,可能增加测试集错误率
D.减小网络层数,总能减小测试集错误率
19、单选(2分):下面哪项操作能实现跟神经网络中Dropout的类似效果(B)。
A.Mapping
B.Bagging
C.Boosting
D.Stacking
20、单选(2分):以下对聚类算法描述正确的是(A)。
A.一般来说,同一聚类簇中的样本间的相似度比不同聚类簇间样本的相似度更高
B.聚类算法必须已知全部样本的标注
C.聚类算法必须已知样本将分成几类
D.一般来说,不同的聚类方法得到的聚类结果是完全相同的
21、单选(2分):对抗攻击发生在模型生命周期的(C)。
A.训练阶段
B.以上都是
C.测试阶段
D.应用阶段
22、单选(2分):导致模型遭受窃取攻击的因素包括(C)。
A.模型结构
B.模型类型
C.以上都是
D.模型过拟合
23、单选(2分):在各种大数据应用领域下,对于隐私方面的担忧主要表现为(A)。
A.个人信息被识别与暴露
B.大数据分析的错误结果
C.病毒的侵入
D.恶意广告的推送
24、单选(2分):以下哪一项不是Github的特色?C
A.网站提供社交网络功能,用户可以通过复刻(fork)他人项目的形式参与开发
B.提供订阅、讨论组、文本渲染、在线文件编辑器、协作图谱报表、代码片段分享等功能
C.允许用户在不登陆的情况下,对在线仓库进行修改
D.只支持Git作为唯一的版本库格式进行托管
25、单选(2分):小红和小刚经常写信分享生活,但是小红、小刚之间需要邮差小明传递信息,为了防止小明偷看信件具体内容,那么小红、小刚可以使用下列哪种隐私保护方法(B)。
A.对称加密方法
B.非对称加密方法
C.差分隐私方法
D.匿名化方法
26、单选(2分):典型的工业控制系统网络拓扑不包括以下哪一层网络结构(A)。
A.现场层
B.监控层
C.管理层
D.控制层
27、单选(2分):关于弱平稳性,下列说法错误的是(A)。
A.具有强平稳性的序列一定具有弱平稳性
B.弱平稳性不涉及高阶矩(>2)
C.协方差函数仅与时间差相关
D.均值函数是常数函数
28、单选(2分):对线下零售行业这一应用领域而言,做好大数据分析应用的前提是(C)。
A.提升服务质量
B.增加营业时间
C.增加数据来源
D.开展优惠促销
29、单选(2分):大数据的特点不包括(C)。
A.实时性
B.真实性
C.单一性
D.规模性
30、单选(2分):在新冠肺炎的接触模型中,疫情在空间上的传播近似呈现(B)。
A.指数分布
B.幂律分布
C.线性分布
D.多项式分布
31、多选(3分):Scikit-learn是基于以下哪几项进行构建的?ABD
A.Matplotlib
B.NumPy
C.PyTorch
D.SciPy
32、多选(3分):当前主要机器学习在发展过程中的挑战主要包括(ABC)。
A.数据标注代价昂贵
B.数据质量参差不齐
C.硬件计算能力瓶颈
D.投入科研经费不足
33、多选(3分):下列关于大数据说法正确的有哪些?BD
A.由于数据可以被再利用,因此数据应该永久被保存。
B.大数据不仅不注重精确性,而且无法实现精确性。
C.错误性是大数据本身固有的。
D.在基本用途完成之后,数据的价值依然存在。
34、多选(3分):下列属于数据智能道德规范范畴的是(ABCD)。
A.数据垄断
B.主观歧视
C.算法黑箱
D.数据收集
35、多选(3分):下列属于常用的过滤法的是(ABCD)。
A.互信息
B.方差选择
C.卡方检验
D.相关系数
36、多选(3分):相比标准神经网络DNN,循环神经网络RNN处理序列数据的优势是(BC)。
A.RNN可以缓解模型的欠拟合
B.RNN可以处理不同长度的序列数据
C.RNN可以让数据中不同位置的特征可以共享
D.RNN可以对数据进行预处理减少计算量
37、多选(3分):LightGBM是一个梯度Boosting框架,它具有以下优势(ABCD)。
A.更快的训练效率
B.更高的准确率
C.支持并行化学习
D.低内存使用
38、多选(3分):下面哪些属于常见的处理时间序列的模型?ABD
A.HMM 隐马尔可夫模型
B.ARIMA 移动平均自回归模型
C.LDA 隐狄利克雷分布
D.RNN 循环神经网络
39、多选(3分):关于非平稳的数据,下列说法正确的是(AC)。
A.变量间可能存在长期稳定的关系
B.肯定不能使用同一个的模型进行监测
C.统计特性(均值、方差等)发生了变化
D.服从相同的分布
40、多选(3分):下列属于数据智能的陷阱的是(BCD)。
A.描述性分析
B.结论不客观
C.采样不当
D.数据造假
41、判断(2分):对非结构化数据,可以直接解析得到相应的值。错
42、判断(2分):Scikit-learn是基于C++语言的机器学习工具。错
43、判断(2分):四分位法(IQR)是指在第80个百分点与第20个百分点差值。错
44、判断(2分):幸存者偏差是采样造成的。对
45、判断(2分):支持向量机SVM无法处理线性不可分的数据集。错
46、判断(2分):经典的ID3决策树采用信息增益最大的特征作为下一个划分特征。对
47、判断(2分):集成思想算法中,一般来说,Boosting类的算法可以并行计算,Bagging类的算法不能并行计算。错
48、判断(2分):Relu激活函数在零点可导。错
49、判断(2分):Tensorflow是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow中的每一个节点都是计算图上的一个Tensor,也就是张量,而节点之间的边描述了计算之间的依赖关系和数学操作。对
50、判断(2分):相比判别模型,生成模型通常需要更多的数据来训练。对
免责声明:本站所有内容及图片均采集来源于网络,并无商业使用,如若侵权请联系删除。