20春学期(1709、1803、1809、1903、1909、2003)《大数据开发技术(二)》在线作业

关注 超前自学网 公众号 获取答案

Spark中DataFrame的()方法是进行条件查询
A:where
B:join
C:limit
D:apply

Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。
A:第一个
B:所有
C:前10个
D:前100个

Scala元组的值是通过将单个的值包含在()中构成的
A:小括号
B:中括号
C:大括号
D:尖括号

当需要将一个普通的RDD转化为一个PairRDD时可以使用()函数来进行操作
A:transfer
B:change
C:map
D:build

以下哪个函数可以求两个RDD交集 ()
A:union
B:substract
C:intersection
D:cartesian

以下哪个函数可以求两个RDD差集 ()
A:union
B:substract
C:intersection
D:cartesian

spark-submit配置项中()表示executor使用的总核数
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM

GraphX中()方法可以释放顶点缓存
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist

以下哪个方法可以从外部存储中创建RDD()
A:parallelize
B:makeRDD
C:textFile
D:loadFile

Scala可以使用()关键字实现单例模式
A:object
B:static
C:private
D:public

以下哪个不是Scala的数据类型()
A:Int
B:Short Int
C:Long
D:Any

Mllib中metrics.precisionByThreshold表示()指标
A:准确度
B:召回率
C:F值
D:ROC曲线

图的结构通常表示为:G(V,E),其中,E是图G中()
A:顶点
B:顶点的集合
C:边
D:边的集合

请问RDD的()操作用于将相同键的数据聚合
A:join
B:zip
C:combineByKey
D:collect

Mllib中metrics.recallByThreshold
表示()指标
A:准确度
B:召回率
C:F值
D:ROC曲线

GraphX中EdgeRDD继承自()
A:EdgeRDD
B:RDD[Edge]
C:VertexRDD[VD]
D:RDD[(VertexId,VD)]

Dstream输出操作中()方法将DStream中的内容以文本的形式保存为文本文件
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles

GraphX中()方法可以查询顶点信息
A:numVertices
B:numEdges
C:vertices
D:edges

Scala通过()来定义变量
A:val
B:val
C:define
D:def

Mllib中线性会馆算法中的参数reParam表示()
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数

Scala中()方法返回Map所有的value
A:key
B:keys
C:value
D:values

Scala列表方法中返回所有元素,除了最后一个的方法是()
A:drop
B:head
C:filter
D:init

Spark Streming中()函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStream
A:union
B:reduce
C:join
D:cogroup

PairRDD可以通过()获得仅包含键的RDD
A:key
B:keys
C:value
D:values

Scala中()方法返回Map所有的key
A:key
B:keys
C:value
D:values

以下哪个是Scala的数据类型()
A:Any
B:NULL
C:Nothing
D:AnyRef

以下算法中属于分类算法的是()
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans

Spark的RDD持久化操作有()方式
A:cache
B:presist
C:storage
D:long

Spark Streaming的特点有()
A:单极性
B:可伸缩
C:高吞吐量
D:容错能力强

Spark Streaming能够和()无缝集成
A:Hadoop
B:Spark SQL
C:Mllib
D:GraphX

Scala系统支持()作为对象成员
A:通用类
B:内部类
C:抽象类
D:复合类

Scala中可以用()方法来连接两个或多个列表
A:::
B:#:::
C:List.:::()
D:List.concat()

Spark DataFrame中()方法可以返回一个List
A:collect
B:take
C:takeAsList
D:collectAsList

Spark DataFrame中()方法可以返回一个Array对象
A:collect
B:take
C:takeAsList
D:collectAsList

Spark可以通过哪些外部存储创建RDD()
A:文本文件
B:目录
C:压缩文件
D:通配符匹配的文件

Spark只有键值对类型的RDD才能设置分区方式
A:对
B:错

Scala中列表是可变的
A:对
B:错

RDD的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。
A:对
B:错

Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗
A:对
B:错

Spark在同一个应用中不能同时使用Spark SQL和Mllib
A:对
B:错

val如同Java里面的非final变量,可以在它的声明周期中被多次赋值。
A:对
B:错

Scala 配备了一种表现型的系统,它以静态的方式进行抽象,以安全和连贯的方式进行使用。
A:对
B:错

RDD的mapPartitions操作会导致Partitions数量的变化
A:对
B:错

RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。
A:对
B:错

RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
A:对
B:错

MLlib中StandardScaler处理的对象是每一列,也就是每一维特征,将特征标准化为单位标准差或是0均值,或是0均值单位标准差。
A:对
B:错

RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD
A:对
B:错

用户可以在Apache Mesos上运行Spark
A:对
B:错

RDD中join操作根据键对两个RDD进行内连接,将两个RDD 中键相同的数据的值相加。
A:对
B:错

PairRDD中groupByKey是对具有相同键的值进行分组
A:对
B:错

提供优质的教育资源

公众号: 超前自学网