国家开放大学大数据技术导论复习题

出自:国家开放大学大数据技术导论复习题

批量计算是一种在线计算，支持海量作业并发规模，系统自动完成资源管理、作业调度和数据加载，并按实际使用量计费。（）
【A.】√
【B.】 ×

静态数据是流式数据。（）
【A.】√
【B.】 ×

流式计算适用于无须先存储，可以直接进行数据计算，实时性要求很严格，但对数据的精确度要求较宽松的应用场景。（）
【A.】√
【B.】 ×

实时计算系统的设计需要考虑高延迟、高性能、分布式、可扩展、高容错。（）
【A.】√
【B.】 ×

流式查询主要有两种方式，一种是指定查询，另一种是即席查询。（）
【A.】√
【B.】 ×

流式数据的处理是批量处理。（）
【A.】√
【B.】 ×

流式计算不宜用持久稳定关系建模，而适用瞬态数据流建模。（）
【A.】√
【B.】 ×

为了更有效地处理数据，应该尽可能地限制静态数据。（）
【A.】√
【B.】 ×

大数据的无序性是指各数据流之间无序，而同一数据流内部各数据元素之间是有序的。（）
【A.】√
【B.】 ×

MapReduce由 Map和 Reduce两个阶段组成,用户只需要编写 Map和 Reduce两个函数就可以完成简单的分布式程序的设计。（）
【A.】√
【B.】 ×

Map相对独立且并行运行，对存储系统中的文件按列处理，并产生键值对。（）
【A.】√
【B.】 ×

在Hadoop中，将每一次计算请求称为一个作业。（）
【A.】√
【B.】 ×

与分布式文件系统相比，MapReduce框架可定制性强。（）
【A.】√
【B.】 ×

通常一个作业的输入都是基于分布式文件系统的文件，而对于一个 Map任务而言，它的输入是输入文件的一个数据块，或者是数据块的一部分，也可跨越数据块。（）
【A.】√
【B.】 ×

Reduce任务与 Map任务的最大不同是 Map任务的文件都存储于本地，而 Reduce任务需要到多处采集。（）
【A.】√
【B.】 ×

MapReduce模型适用场景的特点是任务可被分解成相互联系的子问题。（）
【A.】√
【B.】 ×

可视分析是一种独立式的图形用户界面模型。（）
【A.】√
【B.】 ×

在单词计数的Map过程中需要将文件进行按列分割。（）
【A.】√
【B.】 ×

在单词计数中，Reduce方法的输入参数 key为单个单词，而 value是由各 Mapper类上对应单词的计数值所组成的列表，所以只要遍历 value并求和，即可得到某个单词出现的总次数。（）
【A.】√
【B.】 ×

WordCount完成的功能是统计输入文件中的每个单词出现的频率（）
【A.】√
【B.】 ×

在MapReduce程序执行过程中，用户程序中的MapReduce类库首先将输入文档进行分割，用户也可以通过设置参数对其大小进行控制（）
【A.】√
【B.】 ×

在MapReduce程序执行过程中，由Master负责分配任务，分配的原则是 Master选择空闲的 Worker并为其分配一个 Map任务或一个 Reduce任务（）
【A.】√
【B.】 ×

网站外部数据主要包括互联网环境数据、竞争对手数据、合作伙伴数据和用户数据等。（）
【A.】√
【B.】 ×

在MapReduce程序执行过程中，Map和Reduce函数接收的都是键值对。（）
【A.】√
【B.】 ×

MapReduce模型通过将数据集的大规模操作分发给网络上的各节点，每个节点将已完成的工作和状态更新，周期性地报告给 Worker。（）
【A.】√
【B.】 ×

MapReduce的基本原理就是将大数据分成小块逐个分析，最后将提取出来的数据汇总分析，进而获得需要的结果。（）
【A.】√
【B.】 ×

MapReduce模型中，Map针对每一个输入元素都要生成一个输出元素，Reduce针对每一个输入列表都要生成一个输出元素。（）
【A.】√
【B.】 ×

通常情况下如果集群的规模在百个节点以上，MapReduce的速度可以和节点的数目成正比。（）
【A.】√
【B.】 ×

由于集群模式和单节点模式运行 Hadoop系统都需要使用 SSH登录，因此在安装 Hadoop 系统之前，首先需要安装配置 SSH协议。（）
【A.】√
【B.】 ×

获取的数据是指已被转换为电信号的各种物理量，如温度、水位、风速、压力等。（）
【A.】√
【B.】 ×

大数据的获取要避免重复数据。（）
【A.】√
【B.】 ×

在互联网营销中，用户反馈承担的核心任务是为产品收集用户舆情信息。（）
【A.】√
【B.】 ×

图像数字化是进行数字图像处理的前提。（）
【A.】√
【B.】 ×

图像数字化是将连续色调的模拟图像经采样量化后转换成数字影像的过程。（）
【A.】√
【B.】 ×

图像信息获取的方法只有扫描技术。（）
【A.】√
【B.】 ×

图形数字化是将图形的连续模拟量转换成离散的数字量的过程。（）
【A.】√
【B.】 ×

空间数据是一种用点、线、面以及实体等基本空间数据结构来表示自然世界的数据。（）
【A.】√
【B.】 ×

空间数据的获取不包括对多媒体数据进行获取。（）
【A.】√
【B.】 ×

网站内部数据是网站最容易获取的数据，其通常存放在网站的文件系统或数据库中，也是与网站自身最为密切相关的数据，是网站分析最常用的数据来源。（）
【A.】√
【B.】 ×

网站数据采集只是将网站上的结构化数据从网页中提取出来，并将其存储到统一的本地数据文件中。（）
【A.】√
【B.】 ×

网络爬虫的过程主要分为获取网页、解析网页和存储数据三部分，其是按照一定的获取网页规则，自动地抓取互联网数据的软件。（）
【A.】√
【B.】 ×

网络爬虫可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。（）
【A.】√
【B.】 ×

网络爬虫从一个或若干初始网页的 URL开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL放入队列，直到满足系统的停止条件为止。（）
【A.】√
【B.】 ×

通用网络爬虫又称为全网爬虫，其可将爬行对象从一些种子 URL扩充到整个 Web，主要为门户站点搜索引擎和大型 Web服务采集数据。（）
【A.】√
【B.】 ×

网页的爬行策略可以分为深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略和反向链接数搜索策略，其中深度优先搜索策略是最常使用的方法。（）
【A.】√
【B.】 ×

聚焦网络爬虫又称为主题爬虫，是面向特定主题的一种网络爬虫程序。（）
【A.】√
【B.】 ×

聚焦网络爬虫与通用网络爬虫的区别之处在于聚焦网络爬虫在实施网页抓取时要进行主题筛选，尽量保证只抓取与主题相关的网页信息。（）
【A.】√
【B.】 ×

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。（）
【A.】√
【B.】 ×

网络拓补分析算法是基于网页之间的链接，通过已知的网页或数据对与其有直接或间接链接关系的对象作出评价的算法，其又分为网页粒度、网站粒度两种算法。（）
【A.】√
【B.】 ×

从应用的构建架构角度出发，我们可以将数据库归纳为 OldSQL数据库、NoSQL数据库和 NewSQL数据库。（）
【A.】√
【B.】 ×

首页 <上一页 2 3 4 5 6 下一页> 尾页