大数据技术基础小测一

大数据技术基础试题

试题

发布日期: 2023-11-28

更新日期: 2023-12-19

文章字数: 1.2k

阅读时长: 4 分

阅读次数:

当前大数据技术的基础是由( )首先提出的
A. 微软
B. 谷歌
C. 百度
D. 阿里巴巴

查看答案
解析： Google在大数据方面的技术，均是以发表论文的形式对外公开的，尽管其没有对外开源>系统实现代码，但这些论文直接带动了大数据技术的发展，尤其为大数据开源技术的发展指明了方向。对外公开的技术包括GFS、BigTable、MapReduce、Chubby、Pregel等。
在数据度量中，1ZB是多大（）
A. 10^15
B. 10^18
C. 10^21
D. 10^24

查看答案
解析：数据单位按照从小到大依次是TB,PB,EB,ZB,YB,分别是10^12,10^15,10^18,10^21,10^24
网页、视频、图片、用户行为日志属于哪种数据（）
A. 结构化数据
B. 非结构化数据
C. 都不是
D. 都是

查看答案
解析：非结构化数据指数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。结构化数据指关系模型数据，即以关系数据库表形式管理的数据，结合到典型场景中更容易理解，比如企业ERP(Enterprise resource Planning)、OA(Office Automation)、HR(Human Resource)里的数据。
下列不属于大数据的4V特征的是（）
A. Volume（量大）
B. Velocity（快速化）
C. Variety（多样化）
D. Value（价值密度高）

查看答案
解析：大数据具备价值密度低、商业特征高的特征。大数据的4V特征：量大（Volume）多样化（Variety）快速化（Velocity）价值密度低（Value）
MapReduce,Spark属于哪种计算模式（）
A. 批处理计算
B. 流计算
C. 图计算
D. 查询分析计算

查看答案
解析： 批处理计算是针对大规模数据的批处理，代表产品有MapReduce、Spark等； 流计算是针对流数据的实时计算，代表产品有Storm、S4、Flume、Streams、Puma、Dstream、银河流数据处理平台等； 图计算是针对大规模图结构数据的处理，代表产品有Pregel、GraphX、Giraph等； 查询分析计算是针对大规模数据的存储管理和查询分析，代表产品有Dremel、Hive、Cassandra、 Impala等。
以下哪个不是大数据时代新兴的技术（）
A. HBase
B. Spark
C. MySQL
D. Hadoop

查看答案
解析：Hbase和Spark都属于大数据技术的重要组成部分，而MySQL并不适合大数据。
每种大数据产品都有特定的应用场景，以下哪个产品是用于批处理的（）：
A. Storm
B. MapReduce
C. Pregel
D. Dremel

查看答案
解析：批处理计算是针对大规模数据的批处理，代表产品有MapReduce、Spark等；
下列叙述不恰当的是（）：
A. 大数据时代可以分析更多数据，甚至可以处理和某个特别现象相关的全部数据，而不再依赖于随机采样。
B. 从对象角度看，大数据是大小超出典型数据库软件采集、储存、分析和管理等能力的数据集合。
C. 大数据时代，数据量极大，但纷繁复杂的数据是不可接受的，所以仍需追求精确性。
D. 批处理计算、流计算、图计算与查询分析计算是常见的四种大数据计算模式。

查看答案
解析：大数据时代追求效率而非精确：大数据时代，数据量极大，乐于接受数据的纷繁复杂，而不再追求精确性；
下面哪一项不属于Hadoop与Spark开源大数据技术栈的层级（）
A. 数据收集
B. 数据存储
C. 计算引擎
D. 数据清洗

查看答案
解析：随着大数据开源技术的快速发展，目前开源社区已经积累了比较完整的大数据技术栈，应用最广泛的是以Hadoop与Spark为核心的生态系统，整个大数据技术栈涉及数据收集、数据存储、资源管理与服务协调、计算引擎和数据分析这五个层级。
下面哪一项不属于Hadoop与Spark开源大数据技术栈的数据存储层的技术（）
A. HDFS
B. Kudu
C. ZooKeeper
D. HBase

查看答案

解析：数据存储层主要由分布式文件系统（面向文件的存储）和分布式数据库（面向行/列的存储）构成。