南开大学22秋学期《大数据开发技术（二）》在线作业三

奥鹏教育南开大学平时作业

22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（二）》在线作业-00003

以下算法中属于聚类算法的是（）
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans
正确答案获取微信：424329

Spark GraphX中类Graph的reverse方法可以（）
A:反转图中所有边的方向
B:按照设定条件取出子图
C:取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
D:合并边相同的属性
正确答案获取微信：424329

GraphX中（）是提供顶点的各种操作方法的对象
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
正确答案获取微信：424329

Spark Streming中DStream的每个RDD都是由（）分割开来的数据集
A:分区
B:一小段时间
C:数据量
D:随机
正确答案获取微信：424329

请问RDD的（）操作作用于K-V类型的RDD上，返回指定K的所有V值
A:search
B:find
C:findByKey
D:lookup
正确答案获取微信：424329

GraphX中（）方法可以查询边信息
A:numVertices
B:numEdges
C:vertices
D:edges
正确答案获取微信：424329

Scala源代码被编译成（）字节码，所以它可以运行于JVM之上
A:Spark
B:Scala
C:Java
D:JDK
正确答案获取微信：424329

Scala中重写一个非抽象方法必须使用（）修饰符。
A:extends
B:override
C:extend
D:overrides
正确答案获取微信：424329

Graph类中如果要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案获取微信：424329

Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）
A:filter
B:foreach
C:map
D:mkString
正确答案获取微信：424329

Mllib中线性会馆算法中的参数stepSize表示（）
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数
正确答案获取微信：424329

Scala列表方法中丢弃前n个元素，并返回新列表的方法是（）
A:drop
B:head
C:filter
D:init
正确答案获取微信：424329

以下算法中属于无监督学习算法的是（）
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans
正确答案获取微信：424329

var a=10;
do{
a+=1;
}while(a20)
共循环了（）次
A:9
B:10
C:11
D:12
正确答案获取微信：424329

Scala中如果函数无返回值，则函数返回类型为（）
A:NULL
B:Void
C:Nothing
D:Unit
正确答案获取微信：424329

var a=10;
while(a20){
a+=1;
}
共循环了（）次
A:9
B:10
C:11
D:12
正确答案获取微信：424329

递归函数意味着函数可以调用它（）
A:其他函数
B:主函数
C:子函数
D:自身
正确答案获取微信：424329

Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是（）
A:map
B:foreach
C:flatten
D:flatmap
正确答案获取微信：424329

Spark中DataFrame的（）方法是进行排序查询
A:order by
B:group by
C:select by
D:sort by
正确答案获取微信：424329

Spark Streming中（）函数可以对统计DStream中每个RDD包含的元素的个数，得到一个新的DStream
A:count
B:union
C:length
D:reduce
正确答案获取微信：424329

Spark Streming中（）函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的Dstream
A:map
B:flatMap
C:filter
D:union
正确答案获取微信：424329

（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上
A:SparkR
B:BlinkDB
C:GraphX
D:Mllib
正确答案获取微信：424329

Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案获取微信：424329

S奥鹏教育南开大学平时作业cala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是（）
A:filter
B:flatten
C:grouby
D:flatmap
正确答案获取微信：424329

以下哪个函数可以求两个RDD交集（）
A:union
B:substract
C:intersection
D:cartesian
正确答案获取微信：424329

Spark Streaming能够处理来自（）的数据
A:Kafka
B:Flume
C:Twitter
D:ZeroMQ
正确答案获取微信：424329

Scala系统支持（）作为对象成员
A:通用类
B:内部类
C:抽象类
D:复合类
正确答案获取微信：424329

Scala中可以用（）方法来连接两个或多个列表
A:::
B:#:::
C:List.:::()
D:List.concat()
正确答案获取微信：424329

Scala中构造列表的两个基本单位是（）
A:Nil
B:Nill
C:::
D:List
正确答案获取微信：424329

Spark创建DataFrame对象方式有（）
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表
正确答案获取微信：424329

Spark的RDD持久化操作有()方式
A:cache
B:presist
C:storage
D:long
正确答案获取微信：424329

TF-IDF中TF指的是（）
A:词频
B:词在文档中出现的次数
C:逆文档概率
D:词在文档集中出现的概率
E:词在文档集中出现的概率
正确答案获取微信：424329

MapReudce不适合（）任务
A:大数据计算
B:迭代
C:交互式
D:离线分析
正确答案获取微信：424329

Spark支持的文件格式包括（）
A:文本文件
B:JSON
C:CSV
D:SequenceFile
正确答案获取微信：424329

Spark Streaming的特点有（）
A:单极性
B:可伸缩
C:高吞吐量
D:容错能力强
正确答案获取微信：424329

RDD的sortBy排序默认是升序
A:对
B:错
正确答案获取微信：424329

RDD的flatMap操作是将函数应用于RDD 之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。
A:对
B:错
正确答案获取微信：424329

Scala中Map的isEmpty函数在Map为空时返回false
A:对
B:错
正确答案获取微信：424329

Spark中DataFrame 的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action 操作才会进行计算并返回查询结果。
A:对
B:错
正确答案获取微信：424329

RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。
A:对
B:错
正确答案获取微信：424329

RDD是一个可读写的数据结构
A:对
B:错
正确答案获取微信：424329

RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
A:对
B:错
正确答案获取微信：424329

RDD中join操作最后只返回两个RDD 都存在的键的连接结果。
A:对
B:错
正确答案获取微信：424329

Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗
A:对
B:错
正确答案获取微信：424329

SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD
A:对
B:错
正确答案获取微信：424329

Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。
A:对
B:错
正确答案获取微信：424329

PairRDD中groupBy（func）func返回key，传入的RDD的各个元素根据这个key进行分组。
A:对
B:错
正确答案获取微信：424329

PairRDD中mapValues是针对键值对（Key，Value）类型的数据中的key和Value进行Map操作
A:对
B:错
正确答案获取微信：424329

MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。
A:对
B:错
正确答案获取微信：424329

RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。
A:对
B:错
正确答案获取微信：424329

提供优质的教育资源