hive、spark

  • Post author:
  • Post category:其他


7下列关于Storm设计思想,描述有误的是?(1.5分)0.0 分

A、


Topology里面的每个处理组件(Spout或Bolt)都包含处理逻辑, 而组件之间的连接则表示数据流动的方向


B、

Storm将Spouts和Bolts组成的网络抽象成Topology

C、


Storm认为每个Stream都有一个源头,并把这个源头抽象为Spout


D、

Storm将Streams的状态转换过程抽象为Spout

正确答案: D 我的答案:C

8下列关于Storm的描述,有误的是?(1.5分)0.0 分

A、


Storm将流数据Stream描述成一个有限的Tuple序列


B、

Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作

C、


Storm保证每个消息都能完整处理


D、


Storm认为每个Stream都有一个源头,并把这个源头抽象为Spout


正确答案: A 我的答案:C

  • 流数据是个 无限的tuple序列
  • storm是可靠的消息处理,保证每个消息都能够完整的处理

Spark应用在复杂的批量数据处理

spark能够同时满足批量、交互、实时数据流的需求,遵循一个软件栈满足不同的应用场景。

11下列关于RDD说法,描述有误的是?(1.5分)1.5 分

A、

RDD提供了一种高度受限的

共享内存模型


B、


RDD是可以直接修改的


C、

每个RDD可分成多个分区,每个分区就是一个数据集片段

D、

一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合

正确答案: B 我的答案:B

  • spark的核心建立在统一的抽象RDD上,使得各个组件可以无缝的进程,在同一应用程序上完成计算任务。
  • 计算要求重用中间结果,但是,mapreduce将中间结果存入HDFS,带来了数据复制、磁盘I/O、序列化开销。
  • 为了解决以上问题,RDD 提供了抽象的数据架构,实现管道化,避免在中间结果的存储,降低了数据赋值、磁盘io,序列化开销
  • rdd是分布式对象集合,是只读的分区记录集合。。
  • rdd可以分成多个分区,每个分区是一个数据集片段,而且,rdd的不同分区被保存在不同的结点上,

16下列说法错误的是?(1.5分)1.5 分

A、

Directed Acyclic Graph反映RDD之间的依赖关系

B、


一个Job包含多个RDD及作用于相应RDD上的各种操作


C、


RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task


D、

Application是用户编写的Spark应用程序

正确答案: C 我的答案:C

  • RDD是分布式内存的一个抽象概念,提供了高度受限的共享内存模型
  • executor是运行在工作节点(worker node)上的一个程序,负责运行任务,并为应用结果存储数据
  • 任务:运行在executor上的工作单元
  • 作业:一个作业job包含了多个rdd及作用于相应rdd上的各种操作
  • 阶段:作业的基本调度单位,一个作业被分为多组任务task,每组任务被称为阶段stage,或被称为任务集

17

下列有关Hive和Impala的对比错误的是:

(1.5分)1.5 分

A、

Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划

B、

Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

C、

Hive与Impala使用相同的元数据

D、

Hive适合长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

正确答案: B 我的答案:B

不同点:

  • hive:长时间的批处理查询分析;impala:实时交互式sql查询
  • hive:依赖mapreduce;impala:把执行计划看作完整的执行计划树,分发到各个impalad上进行查询
  • hive放不下时借用外存,impala:不借用外存。所以impala适用于数据较小的查询请求,hive适合大数据量的批量处理

    相同点:
  • 相同的存储数据池hdfs和hbase
  • 使用相同的元数据
  • 对sql的解释处理比较相似,通过语法分析生成执行计划

1Spark支持哪三种不同类型的部署方式?(1.7分)1.7 分

A、

Spark on HDFS

B、

Spark on YARN

C、

Standalone(类似于MapReduce1.0,slot为资源分配单位)

D、

Spark on Mesos(和Spark有血缘关系,更好支持Mesos)

正确答案: BCD 我的答案:BCD

spark支持五种部署方式:

  • loval单机部署
  • standalone
  • spark on yarn
  • spark on kubernetes

2Spark采用RDD以后能够实现高效计算的原因主要在于?(1.7分)1.7 分

A、

存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化

B、

采用数据复制实现容错

C、

高效的容错性

D、

中间结果持久化到内存,数据在内存中的多个

正确答案: ACD 我的答案:ACD


RDD的特性:


SPARK采用rdd后实现高效计算的主要原因:


  • 高效容错

    :RDD只读,不可修改,如果需要修改,必须将父rdd转换到子rdd,建立血缘关系,不需要冗余来实现容错,只需要通过

    血缘关系

    重新计算丢失的分区来实现容错*,无需回滚整个系统*
  • 中间结果持久化到

    内存

    :在内存里进行多个rdd操作之间进行传递,不需要落地到磁盘上,避免了读写此磁盘的开销
  • 存放的数据可以是

    java对象

    ,避免不必要的序列化和反序列化开销

4Spark具有以下哪几个主要特点?(1.7分)1.7 分

A、

通用性

B、

运行速度快

C、

容易使用

D、

运行模式单一

正确答案: ABC 我的答案:ABC

spark的特性:


  • 运行速度快

    :DAG有向无环图。支持循环数据流与内存计算

  • 容易使用

    :多种语言

  • 通用

    :无缝整合,完整强大的技术栈

  • 运行模式多样

    :可以运行于独立的集群模式中,或者运行于hadoop中,也可运行于amazon ec2中,可以访问多种数据源

7

HDFS只设置唯一一个名称节点带来的局限性包括

(1.7分)1.7 分

A、

隔离问题

B、

集群的可用性

C、

性能的瓶颈

D、

命名空间的限制

正确答案: ABCD 我的答案:ABCD

10

NoSQL的最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以进行如下区分。

(2.4分)2.4 分

A、

因果一致性

B、

会话一致性

C、

“读己之所写”一致性

D、

单调读一致性和单调写一致性

正确答案: ABCD 我的答案:ABCD

客户端:一致性指的是在高并发的数据访问操作下,后续能否获取最新的数据


关系数据库:通常为强一致性

,即,一旦更新完成,后续的访问立即读取到新的数据

弱一致性:无法保证后续访问都能读到更新的

最终一致性要求更加低,只要一段时间后能够访问到更新后的数据即可。

  • 因果一致性
  • 读己之缩写一致性
  • 会话一致性
  • 单调读一致性
  • 单调写一致性

14

以下属于Hive的基本数据类型是:

(1.7分)1.7 分

A、

STRING

B、

BINARY

C、

FLOAT

D、

TINYINT

正确答案: ABCD 我的答案:ABCD

15下列关于Spark Streaming与Storm的描述,哪些是正确的的?(1.7分)1.7 分

A、

Storm可以实现毫秒级响应件

B、

Storm无法用于实时计算

C、

Spark Streaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法

D、

Spark Streaming无法实现毫秒级的流计算

正确答案: ACD 我的答案:ACD

spark streaming无法实现毫秒级流计算,按

批处理窗口

大小分解为一系列批处理作业

storm

处理单位为tuple

,只需要

极小的延迟


spark streaming在spark上,因为spark的低延迟可以用于实时计算,而且rdd能够提供

高效的容错

。而且,小批量处理方式可以

兼容批量和实时计算

,方便了需要

历史数据和实时数据联合分析

的特定应用场景

16下列关于流计算与Hadoop的说法,正确的有?(1.7分)1.7 分

A、

MapReduce不适合用于处理持续到达的动态数据

B、

Hadoop擅长批处理,不适合流计算

C、

Hadoop设计的初衷是面向大规模数据的批量处理

D、

MapReduce是专门面向静态数据的批量处理的

正确答案: ABCD 我的答案:ABCD

17下列关于批量计算和实时计算的说法,正确的有?(1.7分)1.7 分

A、

流数据必须采用实时计算

B、

静态数据不适合采用批量计算,因为它不适合用传统的关系模型建模

C、

流数据的响应时间一般为秒级,甚至需要毫秒级

D、

批量计算:充裕时间处理静态数据,如Hadoop

正确答案: ACD 我的答案:ACD

18与Hadoop MapReduce计算框架相比,Spark所采用的Executor具有哪些优点?(1.7分)1.7 分

A、

Executor中有一个BlockManager存储模块,有效减少IO开销

B、

利用多线程来执行具体的任务,减少任务的启动开销

C、

不同场景之间输入输出数据能做到无缝共享

D、

提供了一种高度受限的共享内存模型

正确答案: AB 我的答案:AB

spark采用executor的优点:

  • 多线程,减少任务的启动开销
  • BlockManager:将内存和磁盘共同作为存储设备,需要

    多轮迭代时

    ,将中间结果存储到这个模块,

    减少io开销

    ,不用去读写hdfs。在

    交互式查询

    下,excutor将表缓存到改存储系统上

    提高读写io性能

CD选项为rdd的优点

20下列说法中,哪些选项描述正确?(1.7分)1.7 分

A、

Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题

B、

Hadoop MapReduce提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高

C、

Hadoop MapReduce编程模型比Spark更灵活

D、

Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作

正确答案: AD 我的答案:AD

C:spark更灵活,因为不限于map和reduce

B:更高的迭代运算效率,中间结果放进内存

21

Impala主要由哪几个部分组成:

(1.7分)1.7 分

A、Impalad

B、State Store

C、CLI

D、Hive

正确答案: ABC 我的答案:ABC

  • impalad:是impala的一个进程,负责协调客户端提交的查询的执行,给掐impalad分配任务以及收集其他impalad的执行结果。另外 ,impalad也会执行其他impalad给其分配任务以及收集其他IM帕拉达到的执行结果,主要是对本地hDFS和hbase的部分数据进行操作。imapalad进程主要包含了query planner、query coordinator、query exec engine三个模块,与hdfs的数据结点hdfs dn运行在同一节点上,并且完全分布运行在mpp架构上
  • State store:收集impalad的进程的资源信息,用于查询的调度
  • cli:给用户提供了执行查询的命令工具

22Spark运行架构具有以下哪些特点?(1.7分)1.7 分

A、

Spark运行过程与资源管理器无关,只要能够获取Executor进程并保持通信即可

B、

每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留

C、

Executor进程以多线程的方式运行Task

D、

Task采用了数据本地性和推测执行等优化机制

正确答案: ABCD 我的答案:ABCD

spark运行架构的特点:

  • 每个应用都有自己专属的executor进程,并且该进程在应用运行期间

    一直驻留

    。excutor以

    多线程

    方式运行任务,减少了多进程任务频繁启动开销
  • spark运行过程与资源管理器无关,只

    要能获取executor进程并且保持通信即可
  • 任务采用了

    本地性和推测执行

    等优化机制。即“

    计算向数据靠拢”

    ,因为移动计算比移动数据消耗的少。

    延时调度机制

    ,实现执行过程优化。、

23

下列说法正确的是:

(1.7分)1.7 分

A、

Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上

B、

Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据

C、

数据仓库Hive不需要借助于HDFS就可以完成数据的存储

D、

HiveQL语法与传统的SQL语法很相似

正确答案: ABD 我的答案:ABD

24

以下关于云计算、大数据和物联网之间的关系,论述正确的是:

(1.7分)1.7 分

A、

云计算侧重于数据分析

B、

物联网可以借助于大数据实现海量数据的分析

C、

云计算、大数据和物联网三者紧密相关,相辅相成

D、

物联网可以借助于云计算实现海量数据的存储

正确答案: BCD 我的答案:BCD

三者的联系

  • 云计算为大数据提供了技术基础,大数据为云计算提供了用武之地
  • 物联网是大数据的重要来源,大数据技术为物联网数据分析提供了支撑
  • 云计算为物联网提供了海量的存储能力,物联网为云计算技术提供了广阔的应用空间

三者的区别

  • 大数据侧重存储、处理与分析
  • 云计算侧重整合优化各种it资源,给用户提供廉价服务
  • 物联网的发展核心是应用创新,目标为物物相连

26

以下对数据节点理解正确的是

(1.7分)1.7 分

A、

数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

B、

数据节点用来存储具体的文件内容

C、


数据节点的数据保存在磁盘中


D、

数据节点通常只有一个

正确答案: ABC 我的答案:ABC

27下列关于Storm框架,描述正确的有?(1.7分)1.7 分

A、

executor:executor是

产生于worker

进程内部的线程

B、

在Topology的生命周期中,每个组件的task数目是不会发生变化的,而executor的数目却不一定

C、


task:实际的数据处理由task完成


D、


worker:每个worker进程都属于一个特定的Topology


正确答案: ABCD 我的答案:ABCD

28Scala具有以下哪几个主要特点?(1.7分)1.7 分

A、

Scala具备强大的并发性,支持函数式编程

B、

Scala可以更好地支持分布式系统

C、

Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率

D、

Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中

正确答案: ABCD 我的答案:ABCD

1

Google的BigTable是一个典型的文档数据库。

(1.6分)1.6 分

正确答案: × 我的答案: ×

列式数据库hbase是谷歌bigtable的开源实现

2


Spanner是一个可扩展、多版本、全球分布式并且支持同步复制的数据库,是Google的第一个可以全球扩展并且支持外部一致性的NewSQL数据库



(1.6分)1.6 分

正确答案: √ 我的答案: √

NoSQL缺点:不具备高度结构化查询等特性,查询效率(特别是复杂查询效率)不如关系数据库,而且不支持事务ACID四性。

NewSQL:可扩展、高性能。结合了nosql对海量数据的存储管理能力,保持了传统数据库的ACID和SQL等特性。

不同的newsql的内部结构差异很大,但是共同特点为:支持关系数据库模型;都使用sql作为主要接口

3

HBase客户端并不依赖于Master,而是借助于ZooKeeper来获得Region的位置信息。

(2.4分)2.4 分

正确答案: √ 我的答案: √

5

用户可以通过” hadoop fs –put ”命令获取远端文件数据()。

(1.6分)1.6 分

正确答案: × 我的答案: ×

put上传文件

11

Master服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求。

(1.6分)1.6 分

正确答案: × 我的答案: ×


region服务器

负责维护分配给自己的Region,并响应用户的读写请求。



版权声明:本文为qq_48566899原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。