南开大学23年春学期《数据分析》在线作业一
奥鹏南开大学新学期作业参考
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《数据分析》在线作业-00001
决策树中的叶结点表示()
A:特征
B:类
C:属性
D:值域输出
正确答案问询微信:424329
维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329
基于MapReduce的Apriori算法,共进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案问询微信:424329
以下哪个会降低Apriori算法的挖掘效率( )
A:支持度阈值增大
B:项数减少
C:事务数减少
D:减小硬盘读写速率
正奥鹏南开大学新学期作业参考 代做2元一门确答案问询微信:424329
数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信:424329
在文本信息处理系统中,所处理的原始数据是()
A:结构化的自然语言文本
B:非结构化的自然语言文本
C:非结构化的编码
D:结构化的编码
正确答案问询微信:424329
特征空间中两个实例点的()是两个实例点相似程度的反映。
A:关联性
B:向量值
C:距离
正确答案问询微信:424329
向量空间模型中,用一个()表示语义
A:向量
B:特征
C:数字
D:距离
正确答案问询微信:424329
经典的Apriori算法是逐层扫描的,也就是说它是()优先的
A:宽度
B:深度
正确答案问询微信:424329
闵式距离参数是()时代表曼哈顿距离
A:0
B:1
C:2
D:无穷
正确答案问询微信:424329
度量距离中,表示各个坐标距离最大值的是()
A:欧氏距离
B:曼哈顿距离
C:切比雪夫距离
正确答案问询微信:424329
在估计PLSA生成模型的参数时,使用()
A:极大似然估计
B:对数似然函数
C:特征独立假设
D:贝叶斯定理
正确答案问询微信:424329
置信度(confidence)是衡量兴趣度度量( )的指标
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案问询微信:424329
哪个选项不属于大数据4V特点?
A:Volume
B:Valid
C:Variety
D:Value
正确答案问询微信:424329
类的R型聚类是指()
A:对样本个体进行聚类
B:对指标变量进行聚类。
正确答案问询微信:424329
非频繁模式( )
A:其置信度小于阈值
B:令人不感兴趣
C:包含负模式和负相关模式
D:对异常数据项敏感
正确答案问询微信:424329
聚类过程为()
A:数据准备,特征选择,特征提取,聚类,结果评估
B:数据准备,特征提取,特征选择,聚类,结果评估
C:数据准备,特征提取,聚类,特征选择,结果评估
正确答案问询微信:424329
用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329
算法中用到了外存的算法是()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329
以下哪种类型的数据不是大数据分析模型的分类标准
A:结构化数据
B:异构数据
C:半结构化数据
D:非结构化数据
正确答案问询微信:424329
从训练数据中学习一个()或(),将其称为()。
A:概率分类模型
B:分类决策函数
C:回归模型
D:分类器
正确答案问询微信:424329
下列属于朴素贝叶斯缺点的是()
A:分类效果不稳定
B:不适合增量式训练
C:先验模型可能导致结果不佳
D:对缺失数据不太敏感
正确答案问询微信:424329
根据输入的特征,可以将大数据分析模型分成()
A:监督学习
B:无监督学习
C:半监督学习
正确答案问询微信:424329
借助于大数据提供的()和(),政府可为农业生产进行合理引导,依据需求进行生产,避免产能过剩造成不必要的资源和社会财富浪费。
A:消费能力
B:趋势报告
C:购物结果
正确答案问询微信:424329
下面哪些属于分类算法()
A:SVM
B:决策树
C:KMeans
D:朴素贝叶斯
正确答案问询微信:424329
决策树的生成过程是()
A:递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B:如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C:构建根结点,将所有训练数据都放在根结点
D:选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E:如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
正确答案问询微信:424329
Q型聚类的结果具有()的特点
A:直观
B:细致
C:全面
D:合理
正确答案问询微信:424329
关联规则用于查找项目集合或对象集合之间的()
A:频繁模式
B:关联
C:相关性
D:因果结构
正确答案问询微信:424329
ID3算法流程为()
A:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
B:所有特征的信息增益均很小或没有特征可以选择
C:得到一个决策树
D:对子结点递归地调用,构建决策树
正确答案问询微信:424329
聚类方法包括()
A:划分方法
B:层次方法
C:对象方法
D:基于密度的方法
正确答案问询微信:424329
k均值聚类是硬聚类。()
A:对
B:错
正确答案问询微信:424329
数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
A:对
B:错
正确答案问询微信:424329
朴素贝叶斯法将实例分到后验概率最大的类。()
A:对
B:错
正确答案问询微信:424329
kNN算法中,选择较大的k值“学习”的估计误差会减小。()
A:对
B:错
正确答案问询微信:424329
惊喜度不是推荐系统的一个常用的评价角度
A:对
B:错
正确答案问询微信:424329
kNN算法中,选择较小的k值“学习”的近似误差会减小。()
A:对
B:错
正确答案问询微信:424329
Kmeans算法中,相似的样本聚集在相同的类,不相似的样本分散在不同的类。()
A:对
B:错
正确答案问询微信:424329
内积相似度可以准确表达两个文本的语义相似度。()
A:对
B:错
正确答案问询微信:424329
TrustRank算法中,主要思想是优质的网页链接指向的网页很可能也是优质的,优质网页不太可能指向垃圾网页。()
A:对
B:错
正确答案问询微信:424329
常用的文本相似度计算方法包括:计算文本词集合的Jaccard距离和计算向量化词集合的余弦距离
A:对
B:错
正确答案问询微信:424329
欧式距离计算未考虑分量之间的相关性及不同分量的重要程度。()
A:对
B:错
正确答案问询微信:424329
在推荐系统的组合方案中,混合是指混合来自不同推荐数据源的特征
A:对
B:错
正确答案问询微信:424329
类的中心距离可行是因为总是可以求解出类的中心。()
A:对
B:错
正确答案问询微信:424329
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
A:对
B:错
正确答案问询微信:424329
支持向量机是所有知名的数据挖掘算法中最健壮、最准确的方法之一。()
A:对
B:错
正确答案问询微信:424329
K-均值算法中每个簇都用该簇中对象的均值表示()
A:对
B:错
正确答案问询微信:424329
MapReduce中,如果Reduce任务所需要的Map的中间结果数据因为那台失效的机器而丢失了,则这些关联的Reduce任务的也将被重新执行。()
A:对
B:错
正确答案问询微信:424329
二元逻辑斯谛回归模型形式为参数化的逻辑斯谛分布。
A:对
B:错
正确答案问询微信:424329
当一个节点宕机时,本机节点上已经完成运行的Map任务和正在运行中的Map和Reduce任务都将被调度重新执行。()
A:对
B:错
正确答案问询微信:424329
类的最短、最长距离的缺点是容易受极值点的影响。()
A:对
B:错
正确答案问询微信:424329