大数据技术基础小测一


  1. 当前大数据技术的基础是由( )首先提出的
    A. 微软
    B. 谷歌
    C. 百度
    D. 阿里巴巴

    查看答案 解析: Google在大数据方面的技术,均是以发表论文的形式对外公开的,尽管其没有对外开源>系统实现代码,但这些论文直接带动了大数据技术的发展,尤其为大数据开源技术的发展指明了方向。对外公开的技术包括GFS、BigTable、MapReduce、Chubby、Pregel等。
  2. 在数据度量中,1ZB是多大( )
    A. 10^15
    B. 10^18
    C. 10^21
    D. 10^24

    查看答案 解析:数据单位按照从小到大依次是TB,PB,EB,ZB,YB,分别是10^12,10^15,10^18,10^21,10^24
  3. 网页、视频、图片、用户行为日志属于哪种数据( )
    A. 结构化数据
    B. 非结构化数据
    C. 都不是
    D. 都是

    查看答案 解析:非结构化数据指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。结构化数据指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP(Enterprise resource Planning)、OA(Office Automation)、HR(Human Resource)里的数据。
  4. 下列不属于大数据的4V特征的是( )
    A. Volume(量大)
    B. Velocity(快速化)
    C. Variety(多样化)
    D. Value(价值密度高)

    查看答案 解析:大数据具备价值密度低、商业特征高的特征。大数据的4V特征:量大(Volume) 多样化(Variety) 快速化(Velocity) 价值密度低(Value)
  5. MapReduce,Spark属于哪种计算模式( )
    A. 批处理计算
    B. 流计算
    C. 图计算
    D. 查询分析计算

    查看答案 解析: 批处理计算是针对大规模数据的批处理,代表产品有MapReduce、Spark等; 流计算是针对流数据的实时计算,代表产品有Storm、S4、Flume、Streams、Puma、Dstream、银河流数据处理平台等; 图计算是针对大规模图结构数据的处理,代表产品有Pregel、GraphX、Giraph等; 查询分析计算是针对大规模数据的存储管理和查询分析,代表产品有Dremel、Hive、Cassandra、 Impala等。
  6. 以下哪个不是大数据时代新兴的技术( )
    A. HBase
    B. Spark
    C. MySQL
    D. Hadoop

    查看答案 解析:Hbase和Spark都属于大数据技术的重要组成部分,而MySQL并不适合大数据。
  7. 每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的( ):
    A. Storm
    B. MapReduce
    C. Pregel
    D. Dremel

    查看答案 解析:批处理计算是针对大规模数据的批处理,代表产品有MapReduce、Spark等;
  8. 下列叙述不恰当的是( ):
    A. 大数据时代可以分析更多数据,甚至可以处理和某个特别现象相关的全部数据,而不再依赖于随机采样。
    B. 从对象角度看,大数据是大小超出典型数据库软件采集、储存、分析和管理等能力的数据集合。
    C. 大数据时代,数据量极大,但纷繁复杂的数据是不可接受的,所以仍需追求精确性。
    D. 批处理计算、流计算、图计算与查询分析计算是常见的四种大数据计算模式。

    查看答案 解析:大数据时代追求效率而非精确:大数据时代,数据量极大,乐于接受数据的纷繁复杂,而不再追求精确性;
  9. 下面哪一项不属于Hadoop与Spark开源大数据技术栈的层级( )
    A. 数据收集
    B. 数据存储
    C. 计算引擎
    D. 数据清洗

    查看答案 解析:随着大数据开源技术的快速发展,目前开源社区已经积累了比较完整的大数据技术栈,应用最广泛的是以Hadoop与Spark为核心的生态系统,整个大数据技术栈涉及数据收集、数据存储、资源管理与服务协调、计算引擎和数据分析这五个层级
  10. 下面哪一项不属于Hadoop与Spark开源大数据技术栈的数据存储层的技术( )
    A. HDFS
    B. Kudu
    C. ZooKeeper
    D. HBase


    查看答案
    解析:数据存储层主要由分布式文件系统(面向文件的存储)和分布式数据库(面向行/列的存储)构成。

  • HDFS:Hadoop分布式文件系统,具有良好的扩展性与容错性等优点
  • HBase:构建在HDFS之上的分布式数据库,允许用户存储结构化与半结构化的数据
  • Kudu:分布式列式存储数据库,允许用户存储结构化数据,支持行无限扩展以及数据随机查找与更新
    </details>

文章作者: Davian
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Davian !
  目录