博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【译】技能测试解决方案:Python中的数据科学(二)
阅读量:5943 次
发布时间:2019-06-19

本文共 4891 字,大约阅读时间需要 16 分钟。

本文是译文,可以转载,但需注明出处,点击可以获取原文,有删减。

本系列博文包含四篇文章:
【译】技能测试解决方案:Python中的数据科学(二)——Q16-Q30

Q16

图片描述
在上述数据集中, “Cabin”变量5个样本中就有3个是缺失值,如果某个变量含有较高比例的缺失值,我们可以删除该类变量,但这样做又会损失一定的信息量。
比较折中的解决方案是,另外建立二分类变量 “Missing_Cabin”,当“Cabin”变量为缺失值时,该变量取值1,否则取值0。
下列哪行代码可以实现这个需求?

A - train['Missing_Cabin'] = train.Cabin.apply(lambda x: x == '')B - train['Missing_Cabin'] = train.Cabin.isnull() == FalseC - train['Missing_Cabin'] = train.Cabin.isnull().astype(int)D - 以上选项都不能

Q17

图片描述

上述数据集是出口产品的属性数据,但是在原始数据中,没有列名。我们怎样读入包含指定列名的数据框的数据集?

A - pd.read_csv("train.csv", header=None, columns=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility' ])B - pd.read_csv("train.csv", header=None, usecols=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility'])C - pd.read_csv("train.csv", header=None, names=['Item_Identifier' ,'Item_Weight' ,'Item_Fat_Content', 'Item_Visibility'])D - 以上选项都不能

Q18

图片描述
当我们使用pandas读入数据集时,变量的类型可能解析得不对。为此,我们需要在读入数据集时,指定每个变量的数据类型,或者读入数据集后,转换指定变量的数据类型。
下列哪行代码可以把“Item_Fat_Content” 变量由“object”类型改变成“category”类型?

A - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('categorical')B - train['Item_Fat_Content'] = train['Item_Fat_Content'].astype('category')C - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('category')D - 以上选项都不能

Q19

图片描述

上述数据集中, “Item_Identifier”变量似乎和“Item_Type”变量存在一些关系:当“Item_Identifier”变量首字母发生变化时, “Item_Type” 变量随即也发生变化。当“Item_Identifier”变量以字母“F”开头时,对应的“Item_Type” 变量取值都是可以吃的物品,而“D”则对应的是饮料。

为了检验这个假设,下列哪行代码可以查询出所有“Item_Identifier” 变量以“F”开头的样本?

A - train.Item_Identifier.str.starts_with('F')B - train.Item_Identifier.str.startswith('F')C - train.Item_Identifier.str.is_start('F')D - 以上选项都不能

Q20

图片描述
下列哪行代码可以把 “Item_MRP”变量由“浮点型”改变成“整型”?

A - train['Item_MRP'] = train.Item_MRP.astype(real)B - train['Item_MRP'] = train.Item_MRP.astype(int)C - train['Item_MRP'] = train.Item_MRP.astype(float)D - 以上选项都不能

Q21

图片描述

我们现在还有另外一个假设:在超市里,对于新顾客而言,一个物品越容易看到,它的销量就会越好。

下列哪行代码可以计算 “Item_Outlet_Sales”变量和 “Item_Visibility”变量之间的皮尔逊相关系数?

A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method='pearson')B - train.Item_Visibility.corr(train.Item_Outlet_Sales)C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method='pearson')D - A和B都可以

Q22

图片描述
我们想查看“Hours.Per.Week”变量相对于用户的“Marital.Status”变量和“Occupation”变量的分布。一种方案是创建“Marital.Status”变量vs“Occupation”变量的数据透视表,并求“Hours.Per.Week”变量的值。
下列哪行代码可以实现这个需求?(聚合函数设定为“Sum”)

A - train.pivot(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum')B - train.pivot_table(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum')C - train.pivot_table(index='Marital.Status', columns='Hours.Per.Week', values='Occupation', aggfunc='sum')D - 以上选项都不能

Q23

图片描述
上述数据集中,假设前两行都不是我们想要的,我们想从第三行开始读入数据,在pandas 中如何操作?

A - train = pd.read_csv('train.csv', startrow=2)B - train = pd.csvReader('train.csv', startrow=2)C - train = pd.read_csv('train.csv', skiprows=2)D - 以上选项都不能

Q24

图片描述
假设数据集太大而不能加载到本地机器中,但是我们仍然想把它加载到内存中。一种解决办法是加载指定数目的行数到内存中。
下列哪行代码可以只读取前500行数据到内存中?

A - train = pd.read_csv('train.csv', nrows=500)B - train = pd.read_csv('train.csv', numrows=500)C - train = pd.read_csv('train.csv', rows=500)D - 以上选项都不能

Q25

图片描述

我们现在想要知道“Relationship”变量在数据集中的分布。 为此,我们可以发现用户数与“Relationship”变量的百分比分布。

要做到这一点,需要找到“Relationship”变量所有取值的样本量,然后将其除以总样本数,得到百分比并将其映射到每一列即可。
下列哪行代码可以实现这个需求?

A - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_count/train.shape[0])B - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0])C - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts/train.shape[0])D - 以上选项都不能

Q26

图片描述

上述数据集中,“Date_time_of_event”变量被解析成“分类型”变量,因此,一些有关日期的操作不能作用于该变量。

下列哪行代码可以把 “Date_time_of_event”变量由“分类型”变量转换成“时间型”变量?

A - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y")B - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M")C - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m")D - 以上选项都不能

Q27

图片描述

上述数据集中,我们想根据“Date_time_of_event” 变量衍生出 “Date”变量,下列哪行代码可以提取出“Date_time_of_event” 变量中的日期?

A - train.Date_time_of_event.dt.daysB - train.Date_time_of_event.dt.dayC - train.Date_time_of_event.dt.DayD - 以上选项都不能

Q28

图片描述
下列哪行代码可以提取“Date_time_of_event” 变量中的工作日?

A - train.Date_time_of_event.dt.weekdaynameB - train.Date_time_of_event.dt.weekday_nameC - train.Date_time_of_event.dt.Weekday_nameD - 以上选项都不能

Q29

图片描述

“时间型”变量可能被解析成unix格式,在抽取有用信息之前,我们必须把它转换成可用的格式,下列哪行代码可以实现?

A - pd.to_datetime(train['TIMESTAMP'],unit='s')B - pd.to_datetime(train['TIMESTAMP'],unit='second')C - pd.to_datetime(train['TIMESTAMP'],unit='unix')D - 以上选项都不能

Q30

图片描述
下列哪行代码可以找出“现在”与 ‘Date_time_of_event’变量之间的时间差?

A - pd.datetime.now - train.Date_time_of_event.dtB - pd.datetime.now() - train.Date_time_of_event.dtC - pd.datetime.now() - train.Date_time_of_eventD - 以上选项都不能

友情链接:

你可能感兴趣的文章
jquery 怎么触发select的change事件
查看>>
angularjs指令(二)
查看>>
<气场>读书笔记
查看>>
领域驱动设计,构建简单的新闻系统,20分钟够吗?
查看>>
web安全问题分析与防御总结
查看>>
React 组件通信之 React context
查看>>
ZooKeeper 可视化监控 zkui
查看>>
Linux下通过配置Crontab实现进程守护
查看>>
ios 打包上传Appstore 时报的错误 90101 90149
查看>>
Oracle推出轻量级Java微服务框架Helidon
查看>>
密码概述
查看>>
autoconf,automake,libtool
查看>>
jQuery的技巧01
查看>>
基于泛型实现的ibatis通用分页查询
查看>>
gopacket 使用
查看>>
AlertDialog对话框
查看>>
我的友情链接
查看>>
linux安全---cacti+ntop监控
查看>>
鸟哥的linux私房菜-shell简单学习-1
查看>>
nagios配置监控的一些思路和工作流程
查看>>