当前大数据技术的基础是由( )首先提出的
A. 微软
B. 谷歌
C. 百度
D. 阿里巴巴查看答案
解析: Google在大数据方面的技术,均是以发表论文的形式对外公开的,尽管其没有对外开源>系统实现代码,但这些论文直接带动了大数据技术的发展,尤其为大数据开源技术的发展指明了方向。对外公开的技术包括GFS、BigTable、MapReduce、Chubby、Pregel等。在数据度量中,1ZB是多大( )
A. 10^15
B. 10^18
C. 10^21
D. 10^24查看答案
解析:数据单位按照从小到大依次是TB,PB,EB,ZB,YB,分别是10^12,10^15,10^18,10^21,10^24网页、视频、图片、用户行为日志属于哪种数据( )
A. 结构化数据
B. 非结构化数据
C. 都不是
D. 都是查看答案
解析:非结构化数据指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。结构化数据指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP(Enterprise resource Planning)、OA(Office Automation)、HR(Human Resource)里的数据。下列不属于大数据的4V特征的是( )
A. Volume(量大)
B. Velocity(快速化)
C. Variety(多样化)
D. Value(价值密度高)查看答案
解析:大数据具备价值密度低、商业特征高的特征。大数据的4V特征:量大(Volume) 多样化(Variety) 快速化(Velocity) 价值密度低(Value)MapReduce,Spark属于哪种计算模式( )
A. 批处理计算
B. 流计算
C. 图计算
D. 查询分析计算查看答案
解析: 批处理计算是针对大规模数据的批处理,代表产品有MapReduce、Spark等; 流计算是针对流数据的实时计算,代表产品有Storm、S4、Flume、Streams、Puma、Dstream、银河流数据处理平台等; 图计算是针对大规模图结构数据的处理,代表产品有Pregel、GraphX、Giraph等; 查询分析计算是针对大规模数据的存储管理和查询分析,代表产品有Dremel、Hive、Cassandra、 Impala等。以下哪个不是大数据时代新兴的技术( )
A. HBase
B. Spark
C. MySQL
D. Hadoop查看答案
解析:Hbase和Spark都属于大数据技术的重要组成部分,而MySQL并不适合大数据。每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的( ):
A. Storm
B. MapReduce
C. Pregel
D. Dremel查看答案
解析:批处理计算是针对大规模数据的批处理,代表产品有MapReduce、Spark等;下列叙述不恰当的是( ):
A. 大数据时代可以分析更多数据,甚至可以处理和某个特别现象相关的全部数据,而不再依赖于随机采样。
B. 从对象角度看,大数据是大小超出典型数据库软件采集、储存、分析和管理等能力的数据集合。
C. 大数据时代,数据量极大,但纷繁复杂的数据是不可接受的,所以仍需追求精确性。
D. 批处理计算、流计算、图计算与查询分析计算是常见的四种大数据计算模式。查看答案
解析:大数据时代追求效率而非精确:大数据时代,数据量极大,乐于接受数据的纷繁复杂,而不再追求精确性;下面哪一项不属于Hadoop与Spark开源大数据技术栈的层级( )
A. 数据收集
B. 数据存储
C. 计算引擎
D. 数据清洗查看答案
解析:随着大数据开源技术的快速发展,目前开源社区已经积累了比较完整的大数据技术栈,应用最广泛的是以Hadoop与Spark为核心的生态系统,整个大数据技术栈涉及数据收集、数据存储、资源管理与服务协调、计算引擎和数据分析这五个层级。下面哪一项不属于Hadoop与Spark开源大数据技术栈的数据存储层的技术( )
A. HDFS
B. Kudu
C. ZooKeeper
D. HBase查看答案
解析:数据存储层主要由分布式文件系统(面向文件的存储)和分布式数据库(面向行/列的存储)构成。
- HDFS:Hadoop分布式文件系统,具有良好的扩展性与容错性等优点
- HBase:构建在HDFS之上的分布式数据库,允许用户存储结构化与半结构化的数据
- Kudu:分布式列式存储数据库,允许用户存储结构化数据,支持行无限扩展以及数据随机查找与更新
</details>