新疆工程学院大数据采集与整理(高起专)

出自:新疆工程学院大数据采集与整理(高起专)

下列说法错误的是( )。
A
HDFS HA可以解决单点故障问题
B
HDFS Federation使得HDFS的命名服务能够水平扩展
C
第二名称节点无法解决单点故障问题
D
第二名称节点是热备份,而HDFS HA不是热备份

假设已经配置好PATH环其境变量,启动hadoop的命令是( )。
A
start-hadoop.sh
B
start-hdfs.sh
C
start-fs.sh
D
start-dfs.sh

在设计词频统计MapRedue程序时,对于文本行hello bgdata hll hado ,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作)( )。
A
<ll.,2>. <*bigdata",1>和<"hadoop",1>
B
<elol,<1,1>>. <"bigdatai ,1>和.hadoop.,1>
C
<llo",1,1>. <bigdata" ,1>和<.hadoop",1>
D
<“hello”,1>、<“hello”,1>、<“bigdata”,1>和<“hadoop”,1>

NoSQL数据库的三大理论基石不包括( )。
A
ACID
B
CAP
C
最终一致性
D
BASE

已知一张表student存储在HBase中,向表中插入一记录{id:2015001,name :Mary,{score math}:88},其id作为行键,其中 ,在插入数学成绩88分时,正确的命令是( )。
A
put .student,.score:math.;88.
B
put.student.,‘2015001",.score:math.,.88.
C
put .student",2015001";.88.
D
put .student ,2015001,.math.;.88.

下列有关HBase的说法正确的是( )。
A
HBase是针对谷歌BigTable的开源实现,舸靠高性能的图数据库
B
在向数据库中插入记录时, HBase和关系数据库一样,每次都是以“行为单位把整条记录插入数据库
C
HBase数据库表可以设置该表任意列作为索引
D
HBase是-种NoSQL 数据库

在HDFS根目录下创建一个文件夹/test ,且/test文件夹内还包含-一个文件夹dir ,正确的shell命令是( )。
A
hadoop dfs -mkdir /test/dir
B
hadoop fs -mkdir -p /test/dir
C
hdfs fs -mkdir -p /test/dir
D
hdfs dfs *mkdir -p /test/dir

上传当前目录下的本地文件file txt到分布式文件系统HDFS的“/path"目录下的Shell命令是( )。
A
dfs fs -put file.txt /path
B
hdfs dfs -put file.txt /path
C
hadoop dfs -put /path file .txt
D
hdfs dfs -put /path file.txt

在分布式文件系统HDFS中,负责数据的存储和读取( )。
A
数据节点
B
名称节点
C
主节点
D
第二名称节点

第三次信息化浪潮的发生标志是以下哪种技术的普及( )。
A
物联网、计算和大数据
B
CPU
C
个人计算机
D
互联网

数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段: ( )。
A
数据流阶段
B
运营式系统阶段
C
用户原创内容阶段
D
感知式系统阶段

下列关于分布式数据库的说法中,错误的是( )
A
分布式数据库系统通常使用较小的计算机系统
B
分布式数据库是物理上分散的数据库
C
分布式数据库是逻辑上统一的数据库
D
每台计算机中都一定有DBMS的一份完整拷贝副本

下列关于大数据中计算机存储容量单位的说法中,错误的是( )
A
基本存储容量单位是字节(Byte),
B
汉字字符存储空间要大于英文字符存储空间
C
一个英文字符需要2个字节的存储空间
D
一个汉字字符需要2个字节的存储空间

深度学习开源软件框架描述,错误的是( )
A
TensorFlow支持多种操作系统和终端设备
B
Caffe支持命令行、 Python和MATLAB接口
C
PyTorch内嵌自动求导系统，使其成为最流行的动态图像处理框架
D
2018年PyTorch项目并入Caffe2项目。

计算智能描述错误的是( )
A
计算智能是在生物遗传、变异、生长以及外部环境的自然选择中产生的
B
计算智能包括遗传算法、粒子群算法、蚁群算法等
C
粒子群算法是模拟鸟随机搜索食物的算法
D
计算智能是局部最优算法

下列哪项可以作为集群的管理?( )
A
Puppet
B
Pdsh
C
Cloudera Manager
D
Zookeeper

下列选项中,属于Hadoop优势的有( )。
A
扩容能力强
B
可靠性
C
低效率
D
高容错性

下列说法中,关于crontab表达式说法正确的是( )。
A
通过执行crontab表达式可以执行定时任务
B
crontab 表达式是由6个参数决定
C
Crontab 表达式是由5个参数决定
D
以上说法均正确

下列选项中,属于Sqoop指令的参数有( )。
A
import
B
output
C
input
D
export

在Zookeeper选举过程中,-共有四种状态,分别是( )。
A
竞选状态
B
随从状态
C
观察状态
D
领导者状态

Mac 0S系统的开发者是( )。
A
微软公司
B
惠普公司
C
苹果公司
D
IBM 公司

下列关于大数据的分析理念的说法中,错误的是( )。
A
在数据基础上倾向于全体数据而不是抽样数据
B
在分析方法上更注重相关分析而不是因果分析
C
在分析效果上更追究效率而不是绝对精确
D
在数据规模上强调相对数据而不是绝对数据

下列国家的大数据发展行动中, 集中体现“重视基础、首都先行” 的国家是( )。
A
美国
B
日本
C
中国
D
韩国

下列关于聚类挖掘技术的说法中,错误的是( )。
A
不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B
要求同类数据的内容相似度尽可能小
C
要求不同类数据的内容相似度尽可能小

下列关于计算机存储容量单位的说法中,错误的是( )。
A
1KB< 1MB< 1GB
B
基本单位是字节(Byte) .
C
一个汉字需要一个字节的存储空间
D
一个字节能够容纳一个英文字符

下列关于网络用户行为的说法中,错误的是( ) 。
A
网络公司能够捕捉到用户在其网站上的所有行为
B
用户离散的交互痕迹能够为企业提升服务质量提供参考
C
数字轨迹用完即自动删除
D
用户的隐私安全很难得以规范保护

在数据生命周期管理实践中,( )。
A
数据存储和备份规范
B
数据管理和维护
C
数据价值发觉和利用
D
数据应用开发和管理

当前社会中,最为突出的大数据环境是( )。
A
互联网
B
物联网
C
综合国力
D
自然资源

下列关于舍恩伯格对大数据特点的说法中,错误的是( )。
A
数据规模大石
B
数据类型多样
C
数据处理速度快
D
数据价值密度高

大数据分析的最终目的是【】
A
发现数据
B
查找数据
C
处理数据
D
通过数据分析来挖掘数据背后的价值

大数据最最显著的特征是【】
A
数据规模大
B
数据类型多样
C
数据处理速度快
D
数据价值密度高

大数据的利用过程是【】
A
采集—挖掘—清洗—统计
B
采集—统计—清洗—挖掘
C
采集—清洗—挖掘—统计
D
采集—清洗—统计—挖掘

数据清洗的方法不包括【】
A
缺失值处理
B
噪声数据清楚
C
一致性检查
D
重复数据记录处理

将原始数据进行集成、变换、维度归约、数值归约是在以下哪个步骤的任务【】
A
频繁模式挖掘
B
分类与预测
C
数据预处理
D
数据流挖掘

建立一个模型,通过这个模型根据已知变量值来预测其他变量值属于以下的哪类任务【】
A
根据内容检索
B
建模描述
C
预测建模
D
寻找模式和规则

下列关于大数据的说法中,错误的是( )。
A
大数据具有体量大、结构单一、时效性强的特征
B
处理大数据需采用新型计算架构和智能算法等新技术
C
大数据的应用注重相关分析而不是因果分析
D
大数据的应用注重因果分析而不是相关分析
E
大数据的目的在于发现新的知识与洞察并进行科学决策

大数据人才整体上需要具备( )等核心知识。
A
数学与统计知识
B
计算机相关知识
C
马克思主义哲学知识
D
市场运营管理知识
E
在特定业务领域的知识

传统数据密集型行业积极探索和布局大数据应用的表现是( )。
A
投资入股互联网电商行业
B
打通多源跨域数据
C
提高分析挖掘能力
D
自行开发数据产品
E
实现科学决策与运营

按照涉及自变量的多少,可以将回归分析分为( )。
A
线性回归分析
B
非线性回归分析
C
一元回归分析
D
多元回归分析
E
综合回归分析

数据再利用的意义在于 ( )。
A
挖掘数据的潜在价值
B
实现数据重组的创新价值
C
利用数据可扩展性拓宽业务领域
D
优化存储设备,降低设备成本
E
提高社会效益,优化社会管理