形考任务2
试卷总分:100 得分:100
1.1、下列关于为何要做数据清理描述错误的是( )
A.数据有重复
B.数据有错误
C.数据有缺失
D.数据量太大
2.2、下列关于数据清理描述错误的是( )
A.数据清理能完全处理数据质量差的问题
B.数据清理在数据分析过程中是不可或缺的一个环节
C.数据清理的目的是加强数据质量
D.能够借助Kettle来完成海量的数据清理工作
3.3、下列关于运用参照表清洗数据述法错误的是( )
A.有些数据没法从内部发掘错误,必须结合外边的数据进行参照
B.只要办法得当,数据内部是能够发掘错误的,不必须借助参照表
C.运用参数表能够校验数据的准确性
D.运用参照表能够处理数据的一致性
4.4、某店铺2019年度会员信息表中,某会员的出生年份是1990年,但年龄却记录为25岁,此类错误必须进行( )。
A.缺失值清洗
B.重复值清洗
C.规律值清洗
D.无价值数据清洗
5.5、关于数据清洗的功效,下列说法正确的是( )。
A.去重、补漏、计算
B.去重、补漏、纠错
C.补漏、纠错、计算
D.去重、计算、纠错
6.6、数据清洗时,运营数据中显现“下单时间2088-12-12”,属于( )。
A.缺失值清洗
B.格式内容清洗
C.规律错误清洗
D.重复数据清洗
7.7、以下说法错误的是( )
A.数据预处理的重点流程为数据清理、数据集成、数据变换与数据归约
B.数据清理、数据集成、数据变换、数据归约这些过程在数据预处理活动中必要次序运用
C.冗余数据的删除既是一种数据清理形式,亦是一种数据归约
D.全部预处理过程要尽可能人机结合,尤其要注重和客户以及专家多交流
8.8、处理噪声的办法通常有( )
A.分箱
B.回归
C.聚类
D.以上都是
9.9、数据集成的过程中必须处理的问题有( )
A.实体识别
B.冗余与关联性分析。
C.数据冲突和检测
D.以上都是
10.十、数据归约的办法有( )
A.维度归约
B.数量归约
C.数据压缩
D.以上都是
11.11、关于数据重塑的说法中,下列选项描述错误的是()。
A.数据重塑能够将DataFrame转换为Series
B.stack()办法能够将列索引转换为行索引
C.对一个DataFrame运用stack()办法后返回的必定是一个Series
D..unstack()办法能够将行索引转换为列索引
12.12.请阅读下面的程序: 执行以上程序后,最后输出的结果为()。
A.0 False1 False2 True
B..0 True1 True2 False
C..0 False1 False2 False
D..0 True1 True2 True
13.13、下列选项中,关于drop_duplicates()办法描述错误的是()。
A.仅支持单一特征数据的去重
B..仅对Series和DataFrame对象有效
C.数据去重时默认保存第1个数据
D.该办法不会改变原始数据摆列
14.14、下列选项中,关于dropna()办法描述正确的是()。
A.dropna()办法只会删除值为NaN的数据
B.dropna()办法不会删除值为None的数据
C.dropna()办法会删除值为None和NaN的数据
D.dropna()办法只会检测缺失数据和空值
15.15、下列选项中,关于duplicated()办法描述正确的是()。
A.duplicate()办法用于删除重复值
B.duplicate()办法用于标记重复值
C.duplicate()办法会改变原始数据
D.duplicate()办法会将重复的数据标记为False
16.16、下列选项中,属于数据处理的目的是()
A.使数据更加适用于分析
B.对无道理的数据进行清洗
C.整合数据
D.以上所有
17.17、数据清洗的重点内容包含( )。
A.缺失值清洗
B.格式内容清洗
C.规律错误清洗
D.以上所有
18.18、在数据表里,缺失值平常的表现形式是( )。
A.空值
B.错误标识符
C.#DIV/0!
D.1
19.19、数据清洗时,处理缺失值的办法不包含( )。
A.删除单元格
B.删除记录
C.数据补齐
D.不处理
20.20、数据规律错误不包含( )。
A.数据不恰当
B.数据自相矛盾
C.数据不符合规则
D.数据格式错误
21.21、下列选项中,关于数据预处理说法正确的是()。
A.数据清洗包括了数据标准化、数据合并和缺失值处理
B.数据合并根据合并轴的方向重点分为左连接、右连接、内连接和外连接
C.数据分析的预处理过程包含数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,无严格的先后关系
D.数据标准化的重点对象是类别型特征
22.22、检测出反常值之后,一般会采用那些方式处理它们?()
A.直接将含有反常值的记录删除
B.用详细的值来进行替换,可用前后两个观测值的平均值修正该反常值
C.不处理,直接在拥有反常值的数据集上进行统计分析
D.以上所有
23.23、下列函数中,能够对数据进行的合并的是()。
A.concat()
B..join()
C..merge()
D.以上所有
24.24、下列办法中,能够修改数据类型的是()。
A.desc()
B.to_numberic()
C.dim()
D.type()
25.25、下列关于重复值处理的说法中,错误的是()。
A.duplicated()办法能够标记重复数据
B.drop_duplicates()办法用于删除重复数据
C.重复数据的判断标准是两个数据中所有条目的值都相等
D.duplicated()办法支持从前向后和从后向前两种查询模式
26.2、判断题
1、数据预处理是数据挖掘中必不可少的关键一步,更加是进行数据挖掘前的准备工作。它一方面保论文作业答案请联系 : 证挖掘数据的正确性和有效性,另一方面经过对数据格式和内容的调节,使数据更符合挖掘的必须。
27.2、重复数据会影响数据处理结果的正确性,从而引起数据分析显现偏差,因此呢必须将其删除。
28.3、拥有多层索引的DataFrame对象经过stack()重塑后,返回的是一个Series对象。
29.4、运用merge()函数进行数据合并时,不必须指定合并键。
30.5、fillna()办法处理缺失数据时能够运用Series对象填充,但不能够运用DataFrame对象填充。
31.6、dropna()办法可以删除数据中所有的缺失值。
32.7、drop_duplicated()办法能够删除重复值。
33.8、rename()办法能够重命名索引名。
34.9、经过merge()函数合并数据时能够指定多个键。
35.十、join()办法能够运用左连接和右连接两种方式连接数据。
36.11、关于Pandas中的数据重塑,stack()办法能够将列索引转换为行索引。
37.12、关于预处理中的数据合并,concat()函数是最常用的主键合并函数,能够经过内连接和外连接的方式堆叠合并数据。
38.13、关于预处理中的数据合并,merge()函数是最常用的主键合并的函数,但不可够经过左连接和右连接的方式合并数据。
39.14、关于预处理中的数据合并,join()办法是最常用的主键合并办法之一,但不可够经过左连接和右连接的方式合并数据。
40.15、Pandas中能够运用boxplot()办法绘制箱形图,以实现对数据中的反常值进行检测。
41.16、关于空值和缺失值,NaN和None是完全同样的。
42.17、notnull()与isnull()办法都能够判断数据中是不是存在空值或缺失值。
43.18、dropna()办法能够删除空值和缺失值
44.19、反常值处理中能够基于区别字段的均值和标准差求出反常数据分布范围,而后再对反常范围外 的数据做处理,例如填充为均值
45.20、数据处理中,大都数状况下重复值是必须去除的,使用数据框的drop_duplicates办法就可实现。
46.21、随机抽样即随机的抽取样本,可运用数据框的sample实现,并可经过参数n设置指 定抽样数量,或经过frac指定抽样比例。
47.22、字符串和日期的转换,可经过time或datetime库的strptime和strftime实现。
48.23、数据标准化经过将数据按比例缩放,使之落入一个小的特定区间 对象的操作。
49.24、MaxMin办法则是按照原始数据的最大值和最小值做数据处理,它将数据缩 放为特定范围[0,1]内。
50.25、丢弃缺失值是直接将含有NA值的记录丢弃,适用于NA值的记录较少,且整体 样本量很强的状况。
|