南开大学23年春学期《数据分析》在线作业一

奥鹏南开大学新学期作业参考

23春学期（高起本：1709-2103、专升本/高起专：1909-2103）《数据分析》在线作业-00001

决策树中的叶结点表示（）
A:特征
B:类
C:属性
D:值域输出
正确答案问询微信：424329

维克托?迈尔-舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（）
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信：424329

基于MapReduce的Apriori算法，共进行几轮MapReduce（）
A:1
B:2
C:3
D:4
正确答案问询微信：424329

以下哪个会降低Apriori算法的挖掘效率（）
A:支持度阈值增大
B:项数减少
C:事务数减少
D:减小硬盘读写速率
正奥鹏南开大学新学期作业参考代做2元一门确答案问询微信：424329

数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段（）。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信：424329

在文本信息处理系统中，所处理的原始数据是（）
A:结构化的自然语言文本
B:非结构化的自然语言文本
C:非结构化的编码
D:结构化的编码
正确答案问询微信：424329

特征空间中两个实例点的（）是两个实例点相似程度的反映。
A:关联性
B:向量值
C:距离
正确答案问询微信：424329

向量空间模型中，用一个（）表示语义
A:向量
B:特征
C:数字
D:距离
正确答案问询微信：424329

经典的Apriori算法是逐层扫描的，也就是说它是（）优先的
A:宽度
B:深度
正确答案问询微信：424329

闵式距离参数是（）时代表曼哈顿距离
A:0
B:1
C:2
D:无穷
正确答案问询微信：424329

度量距离中，表示各个坐标距离最大值的是（）
A:欧氏距离
B:曼哈顿距离
C:切比雪夫距离
正确答案问询微信：424329

在估计PLSA生成模型的参数时，使用（）
A:极大似然估计
B:对数似然函数
C:特征独立假设
D:贝叶斯定理
正确答案问询微信：424329

置信度(confidence)是衡量兴趣度度量（）的指标
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案问询微信：424329

哪个选项不属于大数据4V特点？
A:Volume
B:Valid
C:Variety
D:Value
正确答案问询微信：424329

类的R型聚类是指（）
A:对样本个体进行聚类
B:对指标变量进行聚类。
正确答案问询微信：424329

非频繁模式（）
A:其置信度小于阈值
B:令人不感兴趣
C:包含负模式和负相关模式
D:对异常数据项敏感
正确答案问询微信：424329

聚类过程为（）
A:数据准备，特征选择，特征提取，聚类，结果评估
B:数据准备，特征提取，特征选择，聚类，结果评估
C:数据准备，特征提取，聚类，特征选择，结果评估
正确答案问询微信：424329

用多台处理机联合求解问题的算法被称为（）
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信：424329

算法中用到了外存的算法是（）
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信：424329

以下哪种类型的数据不是大数据分析模型的分类标准
A:结构化数据
B:异构数据
C:半结构化数据
D:非结构化数据
正确答案问询微信：424329

从训练数据中学习一个（）或（），将其称为（）。
A:概率分类模型
B:分类决策函数
C:回归模型
D:分类器
正确答案问询微信：424329

下列属于朴素贝叶斯缺点的是（）
A:分类效果不稳定
B:不适合增量式训练
C:先验模型可能导致结果不佳
D:对缺失数据不太敏感
正确答案问询微信：424329

根据输入的特征，可以将大数据分析模型分成（）
A:监督学习
B:无监督学习
C:半监督学习
正确答案问询微信：424329

借助于大数据提供的()和()，政府可为农业生产进行合理引导，依据需求进行生产，避免产能过剩造成不必要的资源和社会财富浪费。
A:消费能力
B:趋势报告
C:购物结果
正确答案问询微信：424329

下面哪些属于分类算法（）
A:SVM
B:决策树
C:KMeans
D:朴素贝叶斯
正确答案问询微信：424329

决策树的生成过程是（）
A:递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类
B:如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去
C:构建根结点，将所有训练数据都放在根结点
D:选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类
E:如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点
正确答案问询微信：424329

Q型聚类的结果具有（）的特点
A:直观
B:细致
C:全面
D:合理
正确答案问询微信：424329

关联规则用于查找项目集合或对象集合之间的（）
A:频繁模式
B:关联
C:相关性
D:因果结构
正确答案问询微信：424329

ID3算法流程为（）
A:从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点
B:所有特征的信息增益均很小或没有特征可以选择
C:得到一个决策树
D:对子结点递归地调用，构建决策树
正确答案问询微信：424329

聚类方法包括（）
A:划分方法
B:层次方法
C:对象方法
D:基于密度的方法
正确答案问询微信：424329

k均值聚类是硬聚类。（）
A:对
B:错
正确答案问询微信：424329

数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
A:对
B:错
正确答案问询微信：424329

朴素贝叶斯法将实例分到后验概率最大的类。（）
A:对
B:错
正确答案问询微信：424329

kNN算法中，选择较大的k值“学习”的估计误差会减小。（）
A:对
B:错
正确答案问询微信：424329

惊喜度不是推荐系统的一个常用的评价角度
A:对
B:错
正确答案问询微信：424329

kNN算法中，选择较小的k值“学习”的近似误差会减小。（）
A:对
B:错
正确答案问询微信：424329

Kmeans算法中，相似的样本聚集在相同的类，不相似的样本分散在不同的类。（）
A:对
B:错
正确答案问询微信：424329

内积相似度可以准确表达两个文本的语义相似度。（）
A:对
B:错
正确答案问询微信：424329

TrustRank算法中，主要思想是优质的网页链接指向的网页很可能也是优质的，优质网页不太可能指向垃圾网页。（）
A:对
B:错
正确答案问询微信：424329

常用的文本相似度计算方法包括：计算文本词集合的Jaccard距离和计算向量化词集合的余弦距离
A:对
B:错
正确答案问询微信：424329

欧式距离计算未考虑分量之间的相关性及不同分量的重要程度。（）
A:对
B:错
正确答案问询微信：424329

在推荐系统的组合方案中，混合是指混合来自不同推荐数据源的特征
A:对
B:错
正确答案问询微信：424329

类的中心距离可行是因为总是可以求解出类的中心。（）
A:对
B:错
正确答案问询微信：424329

正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大
A:对
B:错
正确答案问询微信：424329

支持向量机是所有知名的数据挖掘算法中最健壮、最准确的方法之一。（）
A:对
B:错
正确答案问询微信：424329

K-均值算法中每个簇都用该簇中对象的均值表示（）
A:对
B:错
正确答案问询微信：424329

MapReduce中，如果Reduce任务所需要的Map的中间结果数据因为那台失效的机器而丢失了，则这些关联的Reduce任务的也将被重新执行。（）
A:对
B:错
正确答案问询微信：424329

二元逻辑斯谛回归模型形式为参数化的逻辑斯谛分布。
A:对
B:错
正确答案问询微信：424329

当一个节点宕机时，本机节点上已经完成运行的Map任务和正在运行中的Map和Reduce任务都将被调度重新执行。（）
A:对
B:错
正确答案问询微信：424329

类的最短、最长距离的缺点是容易受极值点的影响。（）
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源