文章目录

软件开发定制定制选择题总结 (89个题)

第1章软件开发定制定制大数据技术概述 (10个题)

‎1.1 软件开发定制定制大数据技术及其代表性软件开发定制定制的软件种类很多，软件开发定制定制不同的技术有其不同应用场景，软件开发定制定制都对应着不同的大数据计算模式，软件开发定制定制请问软件产品Pregel软件开发定制定制主要应用于以下哪种计算模式？ B.图计算

A.流计算B.图计算C.软件开发定制定制查询分析计算D.软件开发定制定制批处理计算1
2
3
4

1.2 Hadoop软件开发定制定制生态系统中用于构建数软件开发定制定制据仓库并允许用户输入SQL软件开发定制定制语句进行查询的功能组件是? C. Hive

A.FlumeB.PregelC.HiveD.Spark1
2
3
4

1.3 ‏Hadoop软件开发定制定制的生态系统组件之一Sqoop的功能是? D.交换数据

A.软件开发定制定制负责集群资源调度管理的组件B.软件开发定制定制用来存储非结构化和半软件开发定制定制结构化的松散数据C.软件开发定制定制提供高可靠性、高可用、软件开发定制定制分布式的海量日志采集D.用来在Hadoop软件开发定制定制和关系数据库之间的交换数据，软件开发定制定制改进数据的互操作性1
2
3
4

1.4 软件开发定制定制以下哪一项不是Hadoop的缺点？ B.软件开发定制定制分布存储到多台机器

A.软件开发定制定制计算延迟高B.软件开发定制定制数据文件被分布存储到软件开发定制定制多台机器上C.磁盘I/O开销大D.软件开发定制定制计算表达能力有限1
2
3
4

1.5 软件开发定制定制用户在使用HDFS时，软件开发定制定制仍然可以像普通文件系软件开发定制定制统那样用文件名去访问文件，软件开发定制定制以下哪个选项是正确的访问方式？ D. 软件开发定制定制三短一长选最长(

‎A.软件开发定制定制把文件名发送给名称节点，软件开发定制定制根据文件名直接在名称节点上获取数据B.把文件名发送给数据节点，根据文件名直接在数据节点上获取数据C.以上说法都不对D.把文件名发送给名称节点，根据文件名在名称节点上找到数据块的实际存储信息，客户端再到数据节点上获取数据1
2
3
4

1.6 目前学术界和业界比较认可的关于大数据的四个特点是? ABCD

‍A.数据类型多B.价值密度低C.数据量大D.处理速度快1
2
3
4

1.7 Hadoop两大核心组成部分是什么？ CD

A.资源调度管理框架YARNB.分布式协作服务ZookeeperC.分布式计算框架MapReduceD.分布式文件系统HDFS1
2
3
4

1.8.‏YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上，具有哪些优点： ABCD

‏A.计算资源按需伸缩B.大大降低了运维成本C.不同负载应用混搭，集群利用率高D.共享底层存储，避免数据跨集群迁移1
2
3
4

1.9 关于Hadoop生态系统中HBase与其它部分的关系，以下说法正确的有： ABCD

‍A.HBase利用MapReduce来处理HBase中的海量数据，实现高性能计算B.利用Pig和Hive为HBase提供了高层语言支持C.使用HDFS作为高可靠的底层存储，利用廉价集群提供海量数据存储能力D.使用Sqoop为HBase提供了高效便捷的RDBMS数据导入功能1
2
3
4

1.10.Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成了一套完整的生态系统，可以支持以下哪些操作计算： ABCD

‏A.流式计算（Spark Streaming）B.SQL即席查询（Spark SQL）C.图计算（GraphX）D.机器学习（MLlib）1
2
3
4

第2章语言基础 (20个题)

2.1 下面输出与其他不一致的是？ D

A.print("Hello World\")B.println("Hello World")C.printf("Hello %s", "World\")D.val w = "World" ; println("Hello $w")1
2
3
4

2.2 有关操作符优先级的描述不正确的是？ A

A.+的优先级高于！B.%的优先级高于+C.>的优先级高于&D.*=的优先级低于+1
2
3
4

2.3 对集合(Set)进行操作"Set(2, 0, 1) + 1 + 1 - 1"之后的结果为？ C

A.以上均不正确B.Set(2, 0, 1, 1)C.Set(2, 0)D.Set(2, 0, 1)1
2
3
4

2.4 以下关于闭包描述错误的是？ D

A.对于def mulBy(factor: Double) = (x: Double) => factor * x; val triple = mulBy(3);,函数triple是一个闭包B.闭包是一个函数，其返回值依赖于声明在函数包部的一个或多个变量C.通常来讲，可以将闭包看作是可以访问一个函数里面局部变量的另一个函数D.对于def mulBy(factor: Double) = (x: Double) => 3 * x; val triple = mulBy(3);,函数triple是一个闭包1
2
3
4

2.5 对于以下代码描述有误的是？ C

val data = Map(1 -> "One", 2 -> "Two")‏val res = for((k, v) <- data; if(k > 1)) yield v1
2

A.其中的if(k > 1)是一个守卫表达式B.运行后res的结果为List("Two")C.运行后res的结果为List("One", "Two")D.对映射data中的每一个(键，值)对，k被绑定对键，而v则被绑定到值1
2
3
4

2.6‍ Scala中，下面的哪个类定义是不正确的？ B

A.class Counter{def counter = “counter”}B.class Counter{var counter:String}C.class Counter{def counter () {}}D.class Counter{val counter = “counter”}1
2
3
4

2.7 以下关于类和单例对象的对比说法正确的是？ A

A.单例对象不可以带参数，而类可以B.单例对象不可以定义方法，而类可以C.单例对象不可以定义私有属性，而类可以D.单例对象不可以继承，而类可以1
2
3
4

2.8 Scala语言中，关于List的定义，不正确的是？ B

A.val list = List(1,2,3)B.val list = List [String]('A','B','C')C.val list = List [Int](1,2,3)D.val list = List [String]()1
2
3
4

2.9‏ 对于Map(“book” -> 5, “pen” -> 2).map(m => m._1 -> m._2 * 2)的结果，下面哪个是正确的？ A

‍A.Map("book" -> 10, "pen" -> 4)B.Map("bookbook" -> 10, "penpen" -> 4)C.Map("book" -> 5, "pen" -> 2 ,"book" -> 5, "pen" -> 2)D.Map("bookbook" -> 5, "penpen" -> 2)1
2
3
4

2.10‌ 表达式for(i <- 1 to 3; j <- 1 to 3; if i != j ) {print((10 * i + j));print(" ")}输出结果正确的是？ D

A.11 12 21 22 31 32B.11 13 21 23 31 33C.11 12 13 21 22 23 31 32 33D.12 13 21 23 31 321
2
3
4

2.11 ‎以下哪些选项属于Scala的基本特性? ABCD

A.是一门类Java的多范式语言B.是一门函数式语言，支持高阶函数，允许嵌套多层函数，并支持柯里化（Currying）C.运行于Java虚拟机（JVM）之上，并且兼容现有的Java程序D.是一门纯粹的面向对象的语言1
2
3
4

2.12 关于主构造器，以下说法正确的是？ ABD

‏A.主构造器的参数可以直接放在类名后B.主构造器中可以使用默认参数C.主构造器在每个类都可以定义多个D.主构造器会执行类定义中的所有语句1
2
3
4

2.13 Scala里的函数是“头等公民”，以下哪些说法是正确的？ ACD

A.将函数赋值给变量B.以上说法都不正确C.将函数作为其他函数的返回值D.将函数作为参数传递给其他函数1
2
3
4

2.14 以下关于特质的说法正确的是？ ABC

A.类可以实现任意数量的特质B.特质可以要求实现它们的类具备特定的字段、方法或超类C.当将多个特质叠加在一起时，顺序很重要，其方法先被执行的特质排在更后面D.与Java接口(Interface)相同，Scala特质不可以提供方法和字段的实现1
2
3
4

2.15 对于元组val t = (1, 3.14, “Fred”)说法正确的是？ BCD

A.t_1 等于 1B.t._0无法访问，会抛出异常C.t 的类型为 Tuple3[Int, Double, java.lang.String]D.val (first, second, _) = t // second 等于 3.141
2
3
4

2.16 Scala 中，类和它的伴生对象说法正确的是？ BC

A.类和它的伴生对象可以有不同的名称B.类和它的伴生对象定义在同一个文件中C.类和它的伴生对象可以互相访问私有特性D.类有静态方法，伴生对象没有静态方法1
2
3
4

2.17 关于数组val a = Array(1,2,3)下列说法正确的是？ ABC

‍A.val b = for(elem <- a if elem % 2 == 0) yield 2 * elem // b 等于 Array(4)B.val b = for(elem <- a) yield 2 * elem // b 等于 Array(2,4,6)C.val b = a.map(_*2) // b 等于 Array(2,4,6)D.val b = 2 * a // b 等于 Array(2,4,6)1
2
3
4

2.18‎ 以下关于Scala各种数据结构的说法正确的是? ABC

A.集合(Set)是不重复元素的容器B.列表(List)一旦被定义,其值就不能改变C.迭代器(Iterator)是一种提供了按顺序访问容器元素的数据结构D.映射(Map)是一系列键值对的容器,在一个映射中,键是唯一的,值也是唯一的1
2
3
4

2.19 ‎val books = List(“Hadoop”,”Hive”,”Mapreduce”),以下哪些操作能将字符串全部变成大写？ BCD

‎A.for (book <-books; c<-book) yield c.toUpperCaseB.books.map(s => s.toUpperCase)C.for (book<-books) yield book.toUpperCaseD.books.map(_.toUpperCase)1
2
3
4

2.20 在Scala中，关于Nothing，null，Null，Option，Some，None的说法正确的是？ ABCD

‍A.Null是所有引用类型的子类，其唯一的实例是nullB.null表示一个空对象，可以赋值给任何引用类型C.类Option是一个抽象类，有一个具体子类Some 和一个对象None，分别表示有值和无值的情况D.Nothing 是所有其他类型的子类，没有实例，主要用于异常处理函数的返回类型1
2
3
4

第3章的设计与运行原理 (10个题)

3.1 ‎以下是Spark的主要特点的有? ABCD

A.运行速度快B.容易使用，简洁的API设计有助于用户轻松构建并行程序C.通用性，Spark提供了完整而强大的技术栈D.运行模式多样1
2
3
4

3.2 Spark的运行架构包括哪些？ ABCD

A.集群资源管理器（Cluster Manager）B.执行进程（Executor）C.Worker NodeD.任务控制节点Driver Program1
2
3
4

3.‎3 关于RDD之间的依赖分为窄依赖和宽依赖，以下说法正确的是？ AC

A.存在一个父RDD的一个分区对应一个子RDD的多个分区，则为宽依赖B.存在一个父RDD的多个分区对应一个子RDD的一个分区，则为宽依赖C.存在一个父RDD的一个分区只被一个子RDD的一个分区所使用，则为窄依赖D.存在一个父RDD的一个分区被一个子RDD的多个分区所使用，则为窄依赖1
2
3
4

3.4 Spark可以采用几种不同的部署方式，以下正确的部署方式有？ ABCD

A.LocalB.StandaloneC.Spark on MesosD.Spark on YARN1
2
3
4

3.5 目前的大数据处理典型应用场景可分为哪几个类型? ABD

A.复杂的批量数据处理B.基于历史数据的交互式查询C.大数据的分布式计算D.基于实时数据流的数据处理1
2
3
4

3.6 以下哪个不是Spark的组件? D

A.Spark StreamingB.MLlibC.GraphXD.Flink1
2
3
4

3.7 下面哪个不是 RDD 的特点 ? C

A.可分区B.可序列化C.可修改D.可持久化1
2
3
4

3.8.Task是Executor上的工作单元，运行于下面哪个组件上？ C

A.Driver ProgramB.Spark MasterC.Worker NodeD.Cluster Manager1
2
3
4

3.9 下面哪个操作肯定是宽依赖？ C

A.mapB.filterC.reduceByKeyD.union1
2
3
4

3.10 以下选项中哪些是Spark的优点？ AC

‍A.具有高效的容错性B.利用进程模型C.可以将中间结果持久化到内存D.表达能力有限1
2
3
4

第4章 Spark环境搭建和使用方法 (10个题)

4.1 Spark部署模式有哪几种? ABCD

A.Local模式（单机模式）B.Standalone模式 C.YARN模式D.Mesos模式1
2
3
4

4.2‏ 关于Hadoop和Spark的相互关系，以下说法正确的是？ ABCD

A.Hadoop和Spark可以相互协作B.Hadoop负责数据的存储和管理C.Spark负责数据的计算D.Spark要操作Hadoop中的数据，需要先启动HDFS1
2
3
4

4.3 判断HDFS是否启动成功，可以通过哪个命令？ C

‎A.hdfsB.sparkC.jpsD.start-dfs1
2
3
4

4.4 ‏HDFS若启动成功，系统会列出以下哪些进程？ ACD

A.NameNodeB.HDFSC.DataNodeD.SecondaryNameNode1
2
3
4

4.5 spark-shell在启动时，采用local[*]时，它的含义是？ B

A.使用任意个线程来本地化运行SparkB.使用与逻辑CPU个数相同数量的线程来本地化运行SparkC.使用与逻辑CPU个数相同数量的进程来本地化运行SparkD.使用单个线程来本地化运行Spark1
2
3
4

4.6‎ spark-shell在启动时，采用yarn-client模式时，以下说法正确的是？ AC

A.当用户提交了作业之后，不能关掉ClientB.当用户提交了作业之后，就可以关掉ClientC.该模式适合运行交互类型的作业D.该模式不适合运行交互类型的作业1
2
3
4

4.7 spark-shell在启动时，采用yarn-cluster模式时，以下说法正确的是？ BD

A.当用户提交了作业之后，不能关掉ClientB.当用户提交了作业之后，就可以关掉ClientC.该模式适合运行交互类型的作业D.该模式不适合运行交互类型的作业1
2
3
4

4.8‍ 开发Spark独立应用程序的基本步骤通常有哪些? ABCD

‌A.安装编译打包工具，如sbt，MavenB.编写Spark应用程序代码C.编译打包D.通过spark-submit运行程序1
2
3
4

4.9 下面描述正确的是： C

A.Hadoop和Spark不能部署在同一个集群中B.Hadoop只包含了存储组件，不包含计算组件C.Spark是一个分布式计算框架，可以和Hadoop组合使用D.Spark和Hadoop是竞争关系，二者不能组合使用1
2
3
4

4.10‍ 集群上运行Spark应用程序的方法步骤有哪些? ABCD

A.启动Hadoop集群B.启动Spark的Master节点和所有Slave节点C.在集群中运行应用程序JAR包D.查看集群信息以获得应用程序运行的相关信息1
2
3
4

第5章 RDD编程 (10个题)

5.1 以下操作中，哪个不是Spark RDD编程中的操作 A

‍A.getLastOne()B.filter()C.reduceByKey(func)D.reduce()1
2
3
4

5.2下述语句执行的结果是 A

‏val rdd=sc.parallelize(Array(1,2,3,4,5))rdd.take(3)1
2

A.Array(1,2,3)B.Array(2,3,4)C.3D.61
2
3
4

5.3‍ 有一个键值对RDD，名称为pairRDD，它包含4个元素，分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD.reduceByKey((a,b)=>a+b)执行结果得到的RDD，它里面包含的元素是 A

A.(“Hadoop”,1),(“Spark”,2),(“Hive”,1)B.(“Hadoop”,2),(“Spark”,1),(“Hive”,1)C.(“Hadoop”,2),(“Spark”,2),(“Hive”,2)D.(“Hadoop”,1),(“Spark”,2),(“Hive”,2)1
2
3
4

5.4 ‌下述语句的执行结果wordCountsWithGroup中包含的元素是 A

val  words = Array("one", "two", "two", "three", "three", "three") ‌val  wordPairsRDD = sc.parallelize(words).map(word => (word, 1))‌val  wordCountsWithGroup = wordPairsRDD. groupByKey().map(t => (t._1, t._2.sum))1
2
3

A.(“one”,1),(“two”,2),(“three”,3)B.(“one”,1),(“two”,2),(“three”,1)C.(“one”,3),(“two”,2),(“three”,1)D.(“one”,1),(“two”,1),(“three”,1)1
2
3
4

5.5 有一个键值对RDD，名称为pairRDD，包含4个元素，分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1)，则pairRDD.mapValues(x => x+1)操作得到的RDD中所包含的元素是 C

A.1,1,1,1B.2,2,2,2C.("Hadoop",2)、("Spark",2)、("Hive",2)和("Spark",2)D. ("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)1
2
3
4

5.6 RDD操作包括哪两种类型 AC

A.行动（Action）B.分组（GroupBy）C.转换（Transformation）D.连接（Join）1
2
3
4

5.7 ‏以下操作中，哪些是转换（Transformation）操作 AB

A.filter()B.reduceByKey(func)C.first()D.count()1
2
3
4

5.8 以下操作中，哪些是行动（Action）操作 AB

A.reduce()B.collect()C.groupByKey()D.map()1
2
3
4

5.9 ‏以下关于RDD的持久化的描述，正确的是 ABCD

A.persist(MEMORY_ONLY)：表示将RDD作为反序列化的对象存储于JVM中，如果内存不足，就要按照LRU原则替换缓存中的内容B.通过持久化（缓存）机制可以避免重复计算的开销C.persist(MEMORY_AND_DISK)：表示将RDD作为反序列化的对象存储在JVM中，如果内存不足，超出的分区将会被存放在硬盘上D.使用cache()方法时，会调用persist(MEMORY_ONLY)1
2
3
4

5.10 ‎关于RDD分区的作用，下面描述正确的是 BC

A.增加时间开销B.增加并行度C.减少通信开销D.减少并行度1
2
3
4

第6章 Spark SQL (10个题)

6.1 关于Shark，下面描述正确的是： C

A.Shark提供了类似Pig的功能B.Shark把SQL语句转换成MapReduce作业C.Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑D.Shark的性能比Hive差很多1
2
3
4

6.2‎ 下面关于Spark SQL架构的描述错误的是： D

A.在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题B.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据C.Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责D.Spark SQL执行计划生成和优化需要依赖Hive来完成1
2
3
4

6.3 要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的： A

A.df.write.json("people.json")B. df.json("people.json")C.df.write.format("csv").save("people.json")D.df.write.csv("people.json")1
2
3
4

6.4 以下操作中，哪个不是DataFrame的常用操作： D

A.printSchema()B.select()C.filter()D.sendto()1
2
3
4

6.5‍ Shark的设计导致了两个问题： AC

A.执行计划优化完全依赖于Hive，不方便添加新的优化策略B.执行计划优化不依赖于Hive，方便添加新的优化策略C.Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支D.Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支1
2
3
4

6.6 ‏下面关于为什么推出Spark SQL的原因的描述正确的是： AB

‍A.Spark SQL可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作B.可以支持大量的数据源和数据分析算法，组合使用Spark SQL和Spark MLlib，可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力C.Spark SQL无法对各种不同的数据源进行整合D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力1
2
3
4

6.7 下面关于DataFrame的描述正确的是： ABCD

A.DataFrame的推出，让Spark具备了处理大规模结构化数据的能力B.DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能C.Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询D.DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息1
2
3
4

6.8‌ 要读取people.json文件生成DataFrame，可以使用下面哪些命令： AC

A.spark.read.json("people.json")B.spark.read.parquet("people.json")C.spark.read.format("json").load("people.json")D.spark.read.format("csv").load("people.json")1
2
3
4

6.9 从RDD转换得到DataFrame包含两种典型方法，分别是： AB

A.利用反射机制推断RDD模式B.使用编程方式定义RDD模式C.利用投影机制推断RDD模式D.利用互联机制推断RDD模式1
2
3
4

6.10 使用编程方式定义RDD模式时，主要包括哪三个步骤： ABD

‍A.制作“表头”B.制作“表中的记录”C.制作映射表D.把“表头”和“表中的记录”拼装在一起1
2
3
4

第7章 Spark Streaming (11个题)

7.1 以下流计算框架中，哪个不是开源的： A

A.IBM StreamBaseB.Twitter StormC.Yahoo! S4D.Spark Streaming1
2
3
4

7.2 ‎下面关于Spark Streaming的描述错误的是： D

A.Spark Streaming的基本原理是将实时输入数据流以时间片为单位进行拆分，然后采用Spark引擎以类似批处理的方式处理每个时间片数据B.Spark Streaming最主要的抽象是DStream（Discretized Stream，离散化数据流），表示连续不断的数据流C.Spark Streaming可整合多种输入数据源，如Kafka、Flume、HDFS，甚至是普通的TCP套接字D.Spark Streaming的数据抽象是DataFrame1
2
3
4

7.3 下面关于Spark Streaming和Storm的描述正确的是： A

A.Spark Streaming无法实现毫秒级的流计算，而Storm可以实现毫秒级响应B.Spark Streaming可以实现毫秒级的流计算，而Storm无法实现毫秒级响应C.Spark Streaming和Storm都可以实现毫秒级的流计算D.Spark Streaming和Storm都无法实现毫秒级的流计算1
2
3
4

7.4 ‏下面描述错误的是： D

A.在RDD编程中需要生成一个SparkContext对象B.在Spark SQL编程中需要生成一个SparkSession对象C.运行一个Spark Streaming程序，就需要首先生成一个StreamingContext对象D.在Spark SQL编程中需要生成一个StreamingContext对象1
2
3
4

7.5 下面不属于Spark Streaming基本输入源的是： D

A.文件流B.套接字流C.RDD队列流D.双向数据流1
2
3
4

7.6 以下关于流数据特征的描述，哪些是正确的： ABCD

‍A.数据快速持续到达，潜在大小也许是无穷无尽的B.数据来源众多，格式复杂C.数据量大，但是不十分关注存储，一旦流数据中的某个元素经过处理，要么被丢弃，要么被归档存储D.数据顺序颠倒，或者不完整，系统无法控制将要处理的新到达的数据元素的顺序1
2
3
4

7.7 流计算处理流程一般包括哪三个阶段： ABD

A.数据实时采集B.数据实时计算C.数据汇总分析D.实时查询服务1
2
3
4

7.8 ‎以下产品哪些属于日志采集组件： AC

A.ScribeB.GraphXC.FlumeD.MySQL1
2
3
4

7.9 流处理系统与传统的数据处理系统的不同之处在于： ABC

A.流处理系统处理的是实时的数据，而传统的数据处理系统处理的是预先存储好的静态数据B.用户通过流处理系统获取的是实时结果，而通过传统的数据处理系统获取的是过去某一时刻的结果C.流处理系统无需用户主动发出查询，实时查询服务可以主动将实时结果推送给用户D.流处理系统处理的是历史的数据，而传统的数据处理系统处理的是实时的数据1
2
3
4

7.10‌ 编写Spark Streaming程序的基本步骤包括： ABCD

A.通过创建输入DStream（Input Dstream）来定义输入源B.通过对DStream应用转换操作和输出操作来定义流计算C.调用StreamingContext对象的start()方法来开始接收数据和处理流程D.调用StreamingContext对象的awaitTermination()方法来等待流计算进程结束1
2
3
4

7.11 DStream有状态转换操作包括哪两种： CD

A.update操作B.reduceByKey操作C.滑动窗口转换操作D.updateStateByKey操作1
2
3
4

第8章 Spark (8个题)

8.1 下面论述中错误的是： A

A.机器学习和人工智能是不存在关联关系的两个独立领域B.机器学习强调三个关键词：算法、经验、性能C.推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域，都用到了机器学习的知识D.机器学习可以看作是一门人工智能的科学，该领域的主要研究对象是人工智能1
2
3
4

8.2‌ 下面关于机器学习处理过程的描述，错误的是： D

‌A.在数据的基础上，通过算法构建出模型并对模型进行评估B.评估的性能如果达到要求，就用该模型来测试其他的数据C.评估的性能如果达不到要求，就要调整算法来重新建立模型，再次进行评估D.通过算法构建出的模型不需要评估就可以用于其他数据的测试1
2
3
4

8.3 下面关于机器学习流水线(PipeLine)的描述，错误的是： D

A.流水线将多个工作流阶段（转换器和评估器）连接在一起，形成机器学习的工作流，并获得结果输出B.要构建一个机器学习流水线，首先需要定义流水线中的各个PipelineStageC.PipelineStage称为工作流阶段，包括转换器和评估器，比如指标提取和转换模型训练等D.流水线构建好以后，就是一个转换器（Transformer）1
2
3
4

8.4 下面关于评估器（Estimator）的描述错误的是： C

A.评估器是学习算法或在训练数据上的训练方法的概念抽象B.在机器学习流水线里，评估器通常是被用来操作 DataFrame数据并生成一个转换器C.评估器实现了方法transfrom()，它接受一个DataFrame并产生一个转换器D.评估器实现了方法fit()，它接受一个DataFrame并产生一个转换器1
2
3
4

8.5 下面关于转换器（Transformer）的描述错误的是： B

A.转换器是一种可以将一个DataFrame转换为另一个DataFrame的算法B.技术上，转换器实现了一个方法fit()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrameC.一个模型就是一个转换器，它把一个不包含预测标签的测试数据集DataFrame打上标签，转化成另一个包含预测标签的 DataFrameD.技术上，转换器实现了一个方法transform()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrame1
2
3
4

8.6 下面的论述中，正确的是： AB

A.传统的机器学习算法，由于技术和单机存储的限制，大多只能在少量数据上使用B.利用MapReduce框架在全量数据上进行机器学习，这在一定程度上解决了统计随机性的问题，提高了机器学习的精度C.MapReduce可以高效支持迭代计算D.Spark无法高效支持迭代计算1
2
3
4

8.7 下面关于Spark MLlib库的描述正确的是： AC

‍A.MLlib库从1.2版本以后分为两个包：spark.mllib和spark.mlB.spark.mllib包含基于DataFrame的原始算法APIC.spark.mllib包含基于RDD的原始算法APID.spark.ml则提供了基于RDD的、高层次的API1
2
3
4

8.8下面论述中正确的是： ABC

A.DataFrame可容纳各种数据类型，与RDD数据集相比，它包含了模式（schema）信息，类似于传统数据库中的二维表格B.流水线用DataFrame来存储源数据C.转换器（Transformer）是一种可以将一个DataFrame转换为另一个DataFrame的算法D.评估器（Estimator）是一种可以将一个DataFrame转换为另一个DataFrame的算法1
2
3
4

软件开发定制定制Spark Scala版本 | 选择题汇总