南开大学23秋学期《数据科学导论》在线作业二

奥鹏南开大学23年秋季新学期作业参考

23秋学期(高起本:1709-2103、专升本/高起专:2003-2103)《数据科学导论》在线作业-00002

我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A:自上而下
B:自下而上
C:自左而右
D:自右而左
正确答案问询微信:424329

数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A:异常值
B:缺失值
C:不一致的值
D:重复值
正确答案问询微信:424329

聚类是一种()。
A:有监督学习
B:无监督学习
C:强化学习
D:半监督学习
正确答案问询微信:424329

以下哪个不是处理缺失值的方法()
A:删除记录
B:按照一定原则补充
C:不处理
D:随意填写
正确答案问询微信:424329

考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A:1,2,3,4
B:1,2,3,5
C:1,2,4,5
D:1,3,4,5
正确答案问询微信:424329

以下哪一项不是特征选择常见的方法()
A:过滤式
B:封装式
C:嵌入式
D:开放式
正确答案问询微信:424329

Apriori算法的加速过程依赖于以下哪个策略( )
A:抽样
B:剪枝
C:缓冲
D:并行
正确答案问询微信:424329

特征选择的四个步骤中不包括()
A:子集产生
B:子集评估
C:子集搜索
D:子集验证
正确答案问询微信:424329

以下哪些不是缺失值的影响()
A:数据建模将丢失大量有用信息
B:数据建模的不确定性更加显著
C:对整体总是不产生什么作用
D:包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
正确答案问询微信:424329

变量之间的关系一般可以分为确定性关系与()。
A:非确定性关系
B:线性关系
C:函数关系
D:相关关系
正确答案问询微信:424329

多层感知机是由()层神经元组成。
A:二
B:三
C:大于等于二层
D:大于等于三层
正确答案问询微信:424329

通过变量标准化计算得到的回归方程称为()。
A:标准化回归方程
B:标准化偏回归方程
C:标准化自回归方程
D:标准化多回归方程
正确答案问询微信:424329

置信度(confidence)是衡量兴趣度度量( )的指标。
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案问询微信:424329

层次聚类对给定的数据进行()的分解。
A:聚合
B:层次
C:分拆
D:复制
正确答案问询微信:424329

下列两个变量之间的关系中,哪个是函数关系()。
A:人的性别和他的身高
B:人的工资与年龄
C:正方形的面积和边长
D:温度与湿度
正确答案问询微信:424329

在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A:最优回归线
B:最优分布线
C:最优预测线
D:最佳分布线
正确答案问询微信奥鹏南开大学23年秋季新学期作业参考:424329

例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A:简单函数变换
B:规范化
C:属性构造
D:连续属性离散化
正确答案问询微信:424329

对于k近邻法,下列说法错误的是()。
A:不具有显式的学习过程
B:适用于多分类任务
C:k值越大,分类效果越好
D:通常采用多数表决的分类决策规则
正确答案问询微信:424329

某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A:产量每增加一台,单位成本增加100元
B:产量每增加一台,单位成本减少1.2元
C:产量每增加一台,单位成本平均减少1.2元
D:产量每增加一台,单位平均增加100元
正确答案问询微信:424329

在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小,减小
B:减小,增大
C:增大,减小
D:增大,增大
正确答案问询微信:424329

下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量
正确答案问询微信:424329

K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取
正确答案问询微信:424329

层次聚类的方法是()
A:聚合方法
B:分拆方法
C:组合方法
D:比较方法
正确答案问询微信:424329

下列选项是BFR的对象是()
A:废弃集
B:临时集
C:压缩集
D:留存集
正确答案问询微信:424329

对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层
正确答案问询微信:424329

关联规则的评价度量主要有:()。
A:支持度
B:置信度
C:准确率
D:错误率
正确答案问询微信:424329

距离度量中的距离可以是()
A:欧式距离
B:曼哈顿距离
C:Lp距离
D:Minkowski距离
正确答案问询微信:424329

系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案问询微信:424329

k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则
正确答案问询微信:424329

聚类的主要方法有()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案问询微信:424329

分拆方法是自底向上的方法。
A:对
B:错
正确答案问询微信:424329

单层感知机对于线性不可分的数据,学习过程也可以收敛。
A:对
B:错
正确答案问询微信:424329

一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
A:对
B:错
正确答案问询微信:424329

子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
A:对
B:错
正确答案问询微信:424329

利用K近邻法进行分类时,k值过小容易发生过拟合现象。
A:对
B:错
正确答案问询微信:424329

神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
A:对
B:错
正确答案问询微信:424329

方差过小的特征对数据的区分能力强
A:对
B:错
正确答案问询微信:424329

sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。
A:对
B:错
正确答案问询微信:424329

K-means聚类是发现给定数据集的K个簇的算法。
A:对
B:错
正确答案问询微信:424329

平均减少的不纯度越大,则特征重要度越高。
A:对
B:错
正确答案问询微信:424329

给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
A:对
B:错
正确答案问询微信:424329

Apriori算法是一种典型的关联规则挖掘算法。
A:对
B:错
正确答案问询微信:424329

茎叶图失去原始数据的信息,而直方图保留原始数据的信息。
A:对
B:错
正确答案问询微信:424329

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建
A:对
B:错
正确答案问询微信:424329

K-means算法采用贪心策略,通过迭代优化来近似求解。
A:对
B:错
正确答案问询微信:424329

随着特征维数的增加,样本间区分度提高。
A:对
B:错
正确答案问询微信:424329

Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
A:对
B:错
正确答案问询微信:424329

增加神经元的个数,无法提高神经网络的训练精度。
A:对
B:错
正确答案问询微信:424329

信息熵越大,数据信息的不确定性越小。
A:对
B:错
正确答案问询微信:424329

为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合
A:对
B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网