【期末高分题集】[东北财经大学]《数据分析与决策》考核必备41

奥鹏期末考核

152002–《数据分析与决策》2022年东北财经大学期末复习题集

单选题：
（1）绝大多数的数据分析算法均是按照（）的输入来实现的。
A.关系型
B.网状型
C.树型
D.混合型
答案问询微信：424329

（2）下列选项中不属于噪声数据产生原因的是（）。
A.数据收集的设备不稳定
B.人们在人机界面的操作失误
C.用户在应用过程中导致某些字段信息丢失
D.数据转化过程中的逻辑错误
答案问询微信：424329

（3）下列关于区间估计说法错误的是（）。
A.区间估计是对总体参数的估计落在一个区间中
B.区间估计要指出被估参数的具体值
C.区间估计指出被估计参数落在某一范围的概率程度
D.区间估计的可靠性是通过置信度来表示的
答案问询微信：424329

（4）将空间中的离散点用（）进行分类。
A.回归函数
B.聚类函数
C.分类函数
D.集合
答案问询微信：424329

（5）标准差较大，说明内聚性（）。
A.好
B.不好
C.不变
D.不确定
答案问询微信：424329

（6）下列关于贝叶斯网络说法错误的是（）。
A.贝叶斯定理是用来定义两个条件概率之间关系的
B.贝叶斯网络是基于概率推理的数学模型
C.贝叶斯网络是为了解决定性和完整性问题而提出的
D.贝叶斯网络会建立一个有向无环图和一个条件概率表集合
答案问询微信：424329

（7）投资决策属于（）问题。
A.线性规划
B.0-1规划
C.动态规划
D.多目标规划
答案问询微信：424329

（8）下列对于随机误差的理解错误的是（）。
A.随机误差是由于众多其他未考虑因素导致的
B.在选择自变量时，如果遗漏了重要的因变量，则随机误差就比较大
C.回归函数的类型选择不会对随机误差产生任何影响
D.随机误差的方差越小，则回归函数就越逼近与因变量
答案问询微信：424329

（9）下列说法中关于“分箱”的说法错误的是（）。
A.数据分箱可以用来对数据进行平滑处理与去除噪声
B.数据分箱不可以对数据进行离散化处理
C.可视化分箱可以将现有字段的连续指进行分组
D.优化分箱通过将每个字段的值分布到不同的分箱中
答案问询微信：424329

（10）显著性水平主要看（）区间所能承担的风险来决定。
A.接受
B.拒绝
C.置信
D.极限
答案问询微信：424329

（11）业务分析着眼于挖掘（）中隐藏的洞见、更深入地理解业务业绩。
A.信息
B.资料
C.数据
D.情报
答案问询微信：424329

（12）What-If分析最为重要的功能是（）。
A.定义功能
B.分析功能
C.比较功能
D.查询功能
答案问询微信：424329

（13）时间序列是通过（）测量时间段中某个变量获得的一组观察值。
A.定期
B.随机
C.不定期
D.不确定时期
答案问询微信：424329

（14）我们需要根据（）来组织数据。
A.结构
B.目标
C.属性
D.表
答案问询微信：424329

（15）一阶自回归使用前（）个时间点值的回归加上随机误差得到当前时间点的值。
A.一
B.二
C.三
D.四
答案问询微信：424329

（16）传统的统计模式识别方法在进行机器学习时，强调经验风险（）。
A.最大化
B.最小化
C.不变化
D.随机变化
答案问询微信：424329

（17）关联规则中，当提升度等于（）时，表明两项交易同时出现属于概率事件，不具有特别意义。
A.0
B.1
C.2
D.3
答案问询微信：424329

（18）为客户推荐何种产品，属于（）决策。
A.战略层
B.战术层
C.实施层
D.作业层
答案问询微信：424329

（19）时间序列的趋势通常随着时间的推移而（）。
A.升高
B.不变
C.降低
D.随机波动
答案问询微信：424329

（20）自动化线性回归分析的最大特点就是能自动寻找出（）的自变量。
A.关联度最大
B.关联度很小
C.没有关联
D.关联不确定
答案问询微信：424329

（21）根据简单季节指数平滑法的表达式，当（）时，表示模型对过去的季节周期分配几乎相同的权重。
A.0
B.0
C.=0
D.=1
答案问询微信：424329

多选题：
（1）典型的数理统计方法主要有（）。
A.参数估计
B.假设检验奥鹏期末考核
C.似然分析
D.回归分析
答案问询微信：424329

（2）下列关于优化和运筹的说法正确的有（）。
A.优化技术偏重于研究
B.运筹学偏重于应用
C.运筹是面向问题的
D.优化是面向数学的
答案问询微信：424329

（3）下列关于随机变量的说法正确的是（）。
A.随进变量是其值随机发生变化的量
B.变量、字段等在数理统计领域中都被称为随机变量
C.随机变量的独立性需要从数学定义去验证
D.随机变量的独立性从变量产生的实际背景去判断
答案问询微信：424329

（4）下列属于数值变量的有（）。
A.工资
B.年龄
C.性别
D.价格
答案问询微信：424329

（5）下列关于相关分析的说法正确的有（）。
A.相关分析着眼于找到变量间的某些数量性指标间关系深浅的程度
B.相关关系分为函数关系和随机关系
C.相关分析的主要目的是确定相关系数的具体取值
D.相关系数的计算方法比较单一
答案问询微信：424329

（6）按照决策影响的大小，可以分为（）。
A.战略层决策
B.战术层决策
C.实施层决策
D.结构化决策
答案问询微信：424329

（7）根据一些常识或者行业知识，可以确定“某些列在说同一件事”，则（）。
A.删除这些列
B.任取一列
C.修改这些列
D.将这些列合并
答案问询微信：424329

（8）关联规则的强规则标准是同时满足（）。
A.最小支持度
B.最大支持度
C.最小置信度
D.最大置信度
答案问询微信：424329

（9）一个好的聚类方法的判断标准有（）。
A.最大化类内的相似性
B.最小化类内的相似性
C.最大化类间的相似性
D.最小化类间的相似性
答案问询微信：424329

（10）C5.0算法过程的步骤是（）。
A.对每次决策树节点进行计算
B.将计算所有没有被用过的字段的信息熵
C.取信息熵最小的字段
D.将信息熵最小的字段作为节点上的保留字段，并据此继续分支
答案问询微信：424329

（11）一个典型的前向型神经网络神经元组织分为（）。
A.输入层
B.隐藏层
C.处理层
D.输出层
答案问询微信：424329

（12）商业智能大多利用（）工具回答一些决策问题。
A.查询
B.报告
C.OLAP
D.预警
答案问询微信：424329

（13）常见的聚类算法有（）。
A.分层聚类
B.K均值聚类
C.两步聚类
D.Kohonen network
答案问询微信：424329

（14）K均值聚类算法的特点是（）。
A.数据集中包含符号属性时，直接应用K均值聚类算法是有问题的
B.用户事先需要制定K的个数
C.对噪声和孤立点数据比较敏感
D.少量的敏感数据能够对聚类均值起到很大的影响
答案问询微信：424329

判断题：
（1）CARMA算法在估计阶段，使用一个表格来保存项目集的信息。
答案问询微信：424329

（2）大数据的到来使得数据所包含的洞见大幅度增长。（）
答案问询微信：424329

（3）在数学模型中，如果仅仅满足约束函数，则可认为这些解都是最优的。（）
答案问询微信：424329

（4）优化分箱通过将每个字段值分布到相同的分箱中，对一个或多个数值型字段进行分箱操作。（）
答案问询微信：424329

（5）K均值聚类相似度的计算根据一个簇中对象的平均值来进行。（）
答案问询微信：424329

（6）动态规划是将复杂问题划分不同阶段，进而逐段求解，最终获得全局最优的规划方法。（）
答案问询微信：424329

（7）所谓敏捷的，其最主要的含义就是拥抱变化，而不是被动地接受变化。（）
答案问询微信：424329

（8）连续时间序列是对一个连续的变量在一个时间段进行连续地测量。（）
答案问询微信：424329

（9）在裁剪候选项目集时，检查每一个候选项目集的子集时，必须要求每一个子集都是频繁项目集。（）
答案问询微信：424329

（10）与文字或表格相比，数据的图形化展示可以帮助我们更有效地了解和理解数据。（）
答案问询微信：424329

（11）项目集的出现频率是交易中包含该项目集的数量。（）
答案问询微信：424329

（12）事件驱动的系统在处理每一个事件的设定中，包含了很多决策。（）
答案问询微信：424329

（13）在构建贝叶斯网络时，所用算法不同则生成的网络形状不同，且条件概率表的形式也是不同的。（）
答案问询微信：424329

（14）优化就是从有效或无限种可行方案中挑选最优方案。（）
答案问询微信：424329

（15）一个简单的决策也应该考虑其具体实现的技术细节。（）
答案问询微信：424329

（16）凝聚聚类是一种自顶向下的方法。（）
答案问询微信：424329

（17）如果时间序列包含的数据量不大时，可以使用前几个时间序列数据来初始化。（）
答案问询微信：424329

（18）异常检测过程查找基于聚类组标准值偏差的异常个案。（）
答案问询微信：424329

（19）预聚类使用BIRCH聚类算法，通过对所有数据的扫描，决定当前记录是否属于一个叶子集合。（）
答案问询微信：424329

（20）对于单变量规则，有效值只可以表示为一个有效范围。（）
答案问询微信：424329

（21）指数平滑模型是时间序列分析中最灵活和准确的方法，也被证明是在经济领域中最有效的预测模型。（）
答案问询微信：424329

（22）无监督的建模技术没有目标值，但是有训练过程。（）
答案问询微信：424329

（23）实施业务分析并不需要每一个部门独立去做，而是由若干个部门合作进行。（）
答案问询微信：424329

（24）聚类的数量越多越好。（）
答案问询微信：424329

（25）在现实中，存在一个可以解决所有问题的最好的时间序列分析法。（）
答案问询微信：424329

（26）F分布大多被用来进行似然性比较。（）
答案问询微信：424329

（27）根据实际抽样调查资料计算样本均值作为总体均值参数的估计值属于区间估计。（）
答案问询微信：424329

简答题：
（1）简述两步聚类算法的两大步骤。
答案问询微信：424329

（2）简述Apriori算法中生成关联规则的步骤。
答案问询微信：424329

（3）简述凝聚聚类算法的基本思想。
答案问询微信：424329

（4）优化技术的三个基本问题是什么？
答案问询微信：424329

名词解释：
（1）趋势
答案问询微信：424329

（2）支持计数
答案问询微信：424329

（3）数据探查
答案问询微信：424329

（4）移动平均法
答案问询微信：424329

（5）离群值
答案问询微信：424329

（6）无偏性
答案问询微信：424329

（7）敏捷
答案问询微信：424329

提供优质的教育资源