出自:国家开放大学大数据技术导论复习题

下列不属于网站数据采集的数据的是()?
【A.】非结构化数据
【B.】半结构化数据
【C.】结构化数据
【D.】实验测试数据
下列不属于网络爬虫工作过程的是()?
【A.】获取网页
【B.】修改网页
【C.】解析网页
【D.】储存数据
下列不属于通用网络爬虫的特点及要求的是()?
【A.】数量巨大
【B.】范围较小
【C.】存储空间要大
【D.】爬行速度要快
下列不属于通用网络爬虫的结构的是()?
【A.】页面爬行模块
【B.】页面分析模块
【C.】页面数据库
【D.】页面修改模块
下列不属于网页的爬虫策略的是()?
【A.】深度优先搜索策略
【B.】精确选择搜索策略
【C.】广度优先搜索策略
【D.】最佳优先搜索策略
下列不属于通用网络爬虫的局限性的是()?
【A.】无用网页较多
【B.】对非结构化数据获取相对容易
【C.】难以支持基于语义信息的查询
【D.】有限的网络爬虫服务器资源与无限的网络数据资源之间的冲突
下列属于聚焦网络爬虫的特点的是()?
【A.】数量巨大
【B.】范围较大
【C.】精准筛选
【D.】爬行速度慢
下列属于浅聚焦网络爬虫的核心特点的是()?
【A.】数量巨大
【B.】范围较大
【C.】精准筛选
【D.】选定URL种子
下列不属于爬虫对抓取目标的定义原则的是()?
【A.】目标网页特征
【B.】目标数据量
【C.】目标数据模式
【D.】领域概念
下列不属于网络爬虫的数据抓取方式的是()?
【A.】预先给定的初始抓取种子样本
【B.】预先给定的网页分类目录和与分类目录对应的种子样本
【C.】通过用户行为确定的抓取目标样例
【D.】自行编写种子样本
下列不属于NoSQL数据库的特点的是()?
【A.】需预定义数据模型
【B.】支持透明横向扩展
【C.】将数据进行分区
【D.】保证最终一致性
下列不属于NoSQL数据库的存储方式的是()?
【A.】行式存储
【B.】键值式存储
【C.】图形式存储
【D.】文档式存储
下列不属于NoSQL数据库的键值式存储的常见形式的是()?
【A.】临时型
【B.】附加型
【C.】混合型
【D.】永久型
下列不属于数据库架构混合应用模式的是()?
【A.】OldSQL+NewSQL混合模式
【B.】OldSQL+NoSQL+ NewSQL混合模式
【C.】OldSQL+NoSQL混合模式
【D.】NewSQL+NoSQL混合模式
下列不属于大数据抽取方式的是()?
【A.】同构同质数据抽取
【B.】异构同质数据抽取
【C.】同构异质数据抽取
【D.】文件型数据抽取
下列不属于增量数据抽取特点的是()?
【A.】抽取发生变化的数据
【B.】快捷
【C.】处理量更多
【D.】需要与数据装载时的更新策略相对应
下列不属于地域空间可视化展现的功能的是()?
【A.】认识功能
【B.】模拟功能
【C.】载负功能
【D.】学习功能
时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的一个数据,其通常是()?
【A.】一个数据集
【B.】一个字符序列
【C.】一个日志文件
【D.】一段储存代码
下列不属于基于时间戳的增量数据抽取方式的优点的是()?
【A.】性能优异
【B.】系统设计清晰
【C.】数据抽取简单
【D.】对业务系统无其他要求
下列不属于MD5(消息摘要算法)的特点的()?
【A.】对源系统的倾入性较小
【B.】被动地进行全表数据的比对
【C.】性能优异
【D.】准确性不稳定
下列不属于数据清洗的是()?
【A.】检查数据的完整性
【B.】修改数据
【C.】填补数据
【D.】消除重复
下列不属于数据质量的要素的是()?
【A.】准确性
【B.】完整性
【C.】异质性
【D.】及时性
下列不属于数据质量一致性的是()?
【A.】数据编码一致性
【B.】数据大小一致性
【C.】指标统计一致性
【D.】指标计算一致性
下列不属于数据清洗算法标准的是()?
【A.】返回率
【B.】错误返回率
【C.】正确返回率
【D.】精确度
下列不会造成文本记录重复相似的是()?
【A.】插入
【B.】交换
【C.】等价表述
【D.】删除冗余
下列不属于文本相似度计算的应用领域的是()?
【A.】信息检索
【B.】数据挖掘
【C.】文档修改
【D.】机器翻译
下列不属于文本相似度计算流程的是()?
【A.】文本排序
【B.】文本分词
【C.】统计词频
【D.】写出词频向量
增量数据抽取方式只抽取()?
【A.】PB级数据
【B.】不变数据
【C.】变化数据
【D.】有价值数据
数据清洗算法的衡量标准主要包含 ( )、错误返回率和精确度。
【A.】冗余度
【B.】返回率
【C.】可用性
【D.】一致性
下列不属于数据转换中适合对数转换的数据是()?
【A.】部分正偏态数据
【B.】等比数据
【C.】等差数据
【D.】数值相差不大的数据
下列不属于数据转换中适合平方根转换的数据是()?
【A.】泊松分布数据
【B.】轻度偏态数据
【C.】样本方差和平均数呈现正相关的数据
【D.】数值相差不大的数据
噪声是指测量数据中的()?
【A.】随机误差
【B.】均值
【C.】方差
【D.】极差
下列不属于地图的构成要素的是()?
【A.】图形要素
【B.】价格要素
【C.】数学要素
【D.】辅助要素
下列不属于数据平滑方法的是()?
【A.】移动平均法
【B.】最大最小值标准化
【C.】指数平滑法
【D.】分箱平滑法
下列不属于移动平均法的是()?
【A.】一次移动平均法
【B.】二次移动平均法
【C.】混合移动平均法
【D.】多次移动平均法
下列属于一次移动平均法的适用范围的是()?
【A.】水平变动的时间序列数据
【B.】长期变动趋势的时间序列数据
【C.】循环性变动的时间序列数据
【D.】季节变动趋势的时间序列数据
下列属于二次移动平均法的适用范围的是()?
【A.】水平变动的时间序列数据
【B.】长期变动趋势的时间序列数据
【C.】循环性变动的时间序列数据
【D.】直线上升或下降趋势的时间序列数据
下列不属于指数平滑法的适用范围的是()?
【A.】稳定变化态势的时间序列数据
【B.】不稳定变化的时间序列数据
【C.】规则变化的时间序列数据
【D.】直线上升或下降趋势的时间序列数据
下列不属于指数平滑法的适用范围的是()?
【A.】近期趋势预测
【B.】短期趋势预测
【C.】中期趋势预测
【D.】长期趋势预测
下列不属于分箱平滑法参照的是()?
【A.】箱内数值的均值
【B.】箱内数值的中值
【C.】箱内数值的边界值
【D.】箱内数值的方差
数据规范化是将原来的度量值转换为()?
【A.】无量纲的值
【B.】原来度量值的均值
【C.】原来度量值的方差
【D.】原来度量值的极差
下列不属于数据规范化的作用的是()?
【A.】加快学习速度
【B.】规范事物概念
【C.】避免单位的影响
【D.】呈现数据的集中程度
假定某属性x的最小值、最大值分别为12000和98000,将属性x映射到 [0, 1]中,根据最小最大规范化方法,x的值 73600(设定值)将转换为()?
【A.】0.716
【B.】0.616
【C.】0.516
【D.】0.816
Z分数规范化方法依据的是原始数据的()?
【A.】均值和中位数
【B.】中位数和极差
【C.】极差和方差
【D.】均值和标准差
如果x的平均值和标准差分别为 54000和 16000。使用z分数规范化方法,x的值 73600被转换为()?
【A.】1.125
【B.】1.025
【C.】1.225
【D.】1.325
Z分数规范化方法中对于离群点,均值绝对偏差相比标准差()?
【A.】更有效
【B.】更平稳
【C.】更精确
【D.】更鲁棒
小数定标规范化方法中,其小数点移动的位数依赖于()?
【A.】最大绝对值
【B.】最小绝对值
【C.】均值绝对值
【D.】中位数绝对值
数据平滑方法主要有指数平滑法、移动平均法和()?
【A.】统计法
【B.】最短距离法
【C.】分箱平滑法
【D.】聚类方法
数据规范方法主要有最小最大规范法、z分数规范法和()?
【A.】极差规范法
【B.】小数定标规范法
【C.】模糊规范法
【D.】聚类方法
下列不属于数据约简策略的是()?
【A.】特征约简
【B.】样本约简
【C.】数值约简
【D.】文本约简