> 安全微伴问答 > 大数据管理技术(大数据技术原理与应用)中国大学mooc网课答案
第1章 大数据概述 第1章 大数据概述 单元测验 1、第三次信息化浪潮的标志是: A、个人电脑的普及 B、互联网的普及 C、云计算、大数据、物联网技术的普及 D、虚拟现实技术的普及 2、就数据的量级而言,1PB数据是多少TB? A、512 B、1024 C、1000 D、2048 3、以下关于云计算、大数据和物联网之间的关系,论述错误的是: A、云计算侧重于数据分析 B、云计算、大数据和物联网三者紧密相关,相辅相成 C、物联网可以借助于云计算实现海量数据的存储 D、物联网可以借助于大数据实现海量数据的分析 4、以下哪个不是大数据时代新兴的技术: A、Hadoop B、Spark C、HBase D、MySQL 5、每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的: A、MapReduce B、Pregel C、Dremel D、Storm 6、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的: A、GraphX B、S4 C、Hive D、Impala 7、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的: A、Cassandra B、Flume C、Storm D、Pregel 8、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的: A、MapReduce B、HDFS C、Dremel D、S4 9、数据产生方式大致经历了三个阶段,包括: A、运营式系统阶段 B、用户原创内容阶段 C、感知式系统阶段 D、移动互联网数据阶段 10、大数据发展的三个阶段是: A、萌芽期 B、低谷期 C、成熟期 D、大规模应用期 11、大数据的特性包括: A、数据量大 B、数据类型繁多 C、处理速度快 D、价值密度低 12、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式: A、实验科学 B、理论科学 C、计算科学 D、数据密集型科学 13、大数据带来思维方式的三个转变是: A、精确而非全面 B、全样而非抽样 C、效率而非精确 D、相关而非因果 14、大数据主要有哪几种计算模式: A、批处理计算 B、流计算 C、图计算 D、查询分析计算 15、云计算的典型服务模式包括三种: A、PaaS B、IaaS C、SaaS D、MaaS第2章 大数据处理架构Hadoop 第2章 大数据处理架构Hadoop 单元测验 1、启动hadoop所有进程的命令是: A、start-dfs.sh B、start-hadoop.sh C、start-all.sh D、start-hdfs.sh 2、以下对Hadoop的说法错误的是: A、Hadoop的核心是HDFS和MapReduce B、Hadoop是基于Java语言开发的,只支持Java语言编程 C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性 D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算 3、以下哪个不是Hadoop的特性: A、高容错性 B、高可靠性 C、成本高 D、支持多种编程语言 4、以下名词解释不正确的是: A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现 B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现 C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储 D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统 5、以下哪些组件是Hadoop的生态系统的组件: A、MapReduce B、HDFS C、Oracle D、HBase 6、以下哪个命令可以用来操作HDFS文件: A、hadoop fs B、hdfs dfs C、hadoop dfs D、hdfs fs第3章 分布式文件系统HDFS 第3章 分布式文件系统HDFS 单元测验 1、HDFS的命名空间不包含: A、目录 B、文件 C、块 D、字节 2、对HDFS通信协议的理解错误的是: A、HDFS通信协议都是构建在IoT协议基础之上的 B、名称节点和数据节点之间则使用数据节点协议进行交互 C、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的 D、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互 3、采用多副本冗余存储的优势不包含: A、加快数据传输速度 B、节约存储空间 C、容易检查数据错误 D、保证数据可靠性 4、假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是: A、start-hdfs.sh,stop-hdfs.sh B、start-dfs.sh,stop-dfs.sh C、start-dfs.sh,stop-hdfs.sh D、start-hdfs.sh,stop-dfs.sh 5、分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫 : A、名称节点,数据节点 B、数据节点,名称节点 C、名称节点,主节点 D、从节点,主节点 6、下面关于分布式文件系统HDFS的描述正确的是: A、分布式文件系统HDFS是一种关系型数据库 B、分布式文件系统HDFS是Google Bigtable的一种开源实现 C、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现 D、分布式文件系统HDFS比较适合存储大量零碎的小文件 7、以下对名称节点理解正确的是: A、名称节点通常用来保存元数据 B、名称节点的数据保存在内存中 C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问 D、名称节点用来负责具体用户数据的存储 8、以下对数据节点理解正确的是: A、数据节点用来存储具体的文件内容 B、数据节点的数据保存在磁盘中 C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作 D、数据节点通常只有一个 9、HDFS只设置唯一一个名称节点带来的局限性包括: A、性能的瓶颈 B、命名空间的限制 C、隔离问题 D、集群的可用性 10、以下HDFS相关的shell命令不正确的是: A、hadoop fs -ls <path>:显示<path>指定的文件的详细信息 B、hadoop dfs mkdir <path>:创建<path>指定的文件夹 C、hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中 D、hdfs dfs -rm <path>:删除路径<path>指定的文件第7章 MapReduce 第7章 MapReduce 单元测验 1、下列说法错误的是: A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写 B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave C、Map函数将输入的元素转换成<key,value>形式的键值对 D、不同的Map任务之间不能互相通信 2、在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式: A、<"hello",1,1>、<"hadoop",1>和<"world",1> B、<"hello",2>、<"hadoop",1>和<"world",1> C、<"hello",<1,1>>、<"hadoop",1>和<"world",1> D、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1> 3、对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是: A、<"hello",1,1><"hadoop",1><"world",1> B、<"hello",2><"hadoop",1><"world",1> C、<"hello",<1,1>><"hadoop",1><"world",1> D、<"hello",1><"hello",1><"hadoop",1><"world",1> 4、下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是: A、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好 B、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好 C、前者相比后者学习起来更难 D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型 5、MapReduce1.0的体系结构主要由哪几个部分组成: A、Client B、JobTracker C、TaskTracker D、Task第4章 分布式数据库HBase 第4章 分布式数据库HBase单元测验 1、HBase是一种 数据库 A、行式数据库 B、列式数据库 C、文档数据库 D、关系数据库 2、下列对HBase数据模型的描述错误的是: A、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳 B、HBase列族支持动态扩展,可以很轻松地添加一个列族或列 C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本 D、每个HBase表都由若干行组成,每个行由行键(row key)来标识 3、下列说法正确的是: A、HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器 B、Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等 C、如果不启动Hadoop,则HBase完全无法使用 D、如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据 4、在HBase数据库中,每个Region的建议最佳大小是: A、100MB-200MB B、500MB-1000MB C、1GB-2GB D、2GB-4GB 5、HBase三层结构的顺序是: A、Zookeeper文件,.MEATA.表,-ROOT-表 B、Zookeeper文件,-ROOT-表,.MEATA.表 C、-ROOT-表,Zookeeper文件,.MEATA.表 D、.MEATA.表,Zookeeper文件,-ROOT-表 6、客户端是通过 级寻址来定位Region: A、一 B、二 C、三 D、四 7、关于HBase Shell命令解释错误的是: A、create:创建表 B、list:显示表的所有数据 C、put:向表、行、列指定的单元格添加数据 D、get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值 8、下列对HBase的理解正确的是: A、HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件 B、HBase是针对谷歌BigTable的开源实现 C、HBase多用于存储非结构化和半结构化的松散数据 D、HBase是一种关系型数据库,现成功应用于互联网服务领域 9、HBase和传统关系型数据库的区别在于哪些方面: A、数据模型 B、数据操作 C、存储模式 D、数据索引 10、访问HBase表中的行,有哪些方式: A、通过单个行健访问 B、通过一个行健的区间来访问 C、全表扫描 D、通过某列的值区间第9章 数据仓库Hive 第9章 数据仓库Hive 单元测验 1、下列有关Hive和Impala的对比错误的是: A、Hive与Impala使用相同的元数据 B、Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划 C、Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询 D、Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此 2、下列关于Hive基本操作命令的解释错误的是: A、create database userdb;//创建数据库userdb B、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age C、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表 D、insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据 3、下列说法正确的是: A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储 B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上 C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据 D、HiveQL语法与传统的SQL语法很相似 4、Impala主要由哪几个部分组成: A、Impalad B、State Store C、CLI D、Hive 5、以下属于Hive的基本数据类型是: A、TINYINT B、FLOAT C、STRING D、BINARY