南开大学23秋学期《数据科学导论》在线作业三

奥鹏南开大学23年秋季新学期作业参考

23秋学期(高起本:1709-2103、专升本/高起专:2003-2103)《数据科学导论》在线作业-00003

利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A:最小化方差#最小化标准差
B:最小化残差平方和
C:最大化信息熵
正确答案问询微信:424329

维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329

单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型
正确答案问询微信:424329

下面不是分类的常用方法的有()
A:K近邻法
B:朴素贝叶斯
C:决策树
D:条件随机场
正确答案问询微信:424329

设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A:4
B:5
C:6
D:7
正确答案问询微信:424329

实体识别的常见形式()
A:同名异义
B:异名同义
C:单位不统一
D:属性不同
正确答案问询微信:424329

某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A:产量每增加一台,单位成本增加100元
B:产量每增加一台,单位成本减少1.2元
C:产量每增加一台,单位成本平均减少1.2元
D:产量每增加一台,单位平均增加100元
正确答案问询微信:424329

单层感知机拥有()层功能神经元。
A:一
B:二
C:三
D:四
正确答案问询微信:424329

通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A:简单函数变换
B:规范化
C:属性构造
D:连续属性离散化
正确答案问询微信:424329

BFR聚类用于在()欧氏空间中对数据进行聚类
A:高维
B:中维
C:低维
D:中高维
正确答案问询微信:424329

在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A:最优回归线
B:最优分布线
C:最优预测线
D:最佳分布线
正确答案问询微信:424329

例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A:简单函数变换
B:规范化
C:属性构造
D:连续属性离散化
正确答案问询微信:424329

在一元线性回归模型中,残差项服从()分布。
A:泊松
B:正态
C:线性
D:非线性
正确答案问询微信:424329

手肘法的核心指标是()。
A:SES
B:SSE
C:RMSE
D:MSE
正确答案问询微信:424329

在回归分析中,自变量为(),因变量为()。
A:离散型变量,离散型变量
B:连续型变量,离散型变量
C:离散型变量,连续型变量
D:连续型变量,连续型变量
正确答案问询微信:424329

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A:关联规则发现
B:聚类
C:分类
D:自然语言处理
正确答案问询微信:424329

具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A:1,线性
B:2,线性
C:1,非线性
D:2,非线性
正确答案问询微信:424329

考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A:1,2,3,4
B:1,2,3,5
C:1,2,4,5
D:1,3,4,5
正确答案问询微信:424329

以下哪一项不属于数据变换()
A:简单函数变换
B:规范化
C:属性合并
D:连续属性离散化
正确答案问询微信:424329

只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A:计数属性
B:离散属性
C:非对称的二元属性#对称属性
正确答案问询微信:424329

一元回归参数估计的参数求解方法有()。
A:最大似然法
B:距估计法
C:最小二乘法
D:欧式距离法
正确答案问询微信:424329

相关性的分类,按照相关的方向可以分为()。
A:正相关
B:负相关
C:左相关
D:右相关
正确答案问询微信:424329

系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案问询微信:424329

对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层
正确答案问询微信:424329

k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则
正确答案问询微信:424329

聚类的主要方法有()。
奥鹏南开大学23年秋季新学期作业参考A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案问询微信:424329

下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量
正确答案问询微信:424329

关联规则的评价度量主要有:()。
A:支持度
B:置信度
C:准确率
D:错误率
正确答案问询微信:424329

下列选项是BFR的对象是()
A:废弃集
B:临时集
C:压缩集
D:留存集
正确答案问询微信:424329

K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取
正确答案问询微信:424329

剪枝是决策树学习算法对付“过拟合”的主要手段
A:对
B:错
正确答案问询微信:424329

可信度是对关联规则的准确度的衡量。
A:对
B:错
正确答案问询微信:424329

交叉表被广泛用于调查研究,商业智能,工程和科学研究
A:对
B:错
正确答案问询微信:424329

当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
A:对
B:错
正确答案问询微信:424329

分拆方法是自底向上的方法。
A:对
B:错
正确答案问询微信:424329

Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
A:对
B:错
正确答案问询微信:424329

K均值(K-Means)算法是密度聚类。
A:对
B:错
正确答案问询微信:424329

为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
A:对
B:错
正确答案问询微信:424329

茎叶图失去原始数据的信息,而直方图保留原始数据的信息。
A:对
B:错
正确答案问询微信:424329

赤池信息准则是衡量统计模型拟合优良性的一种标准。
A:对
B:错
正确答案问询微信:424329

特征的信息增益越大,则其越不重要。
A:对
B:错
正确答案问询微信:424329

平均减少的不纯度越大,则特征重要度越高。
A:对
B:错
正确答案问询微信:424329

相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
A:对
B:错
正确答案问询微信:424329

阶跃函数具有不光滑、不连续的特点。
A:对
B:错
正确答案问询微信:424329

选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
A:对
B:错
正确答案问询微信:424329

贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
A:对
B:错
正确答案问询微信:424329

Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
A:对
B:错
正确答案问询微信:424329

在数据预处理时,无论什么情况,都可以直接将异常值删除
A:对
B:错
正确答案问询微信:424329

决策树分类时将该结点的实例强行分到条件概率大的那一类去
A:对
B:错
正确答案问询微信:424329

增加神经元的个数,无法提高神经网络的训练精度。
A:对
B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网