#  处理数据集

数据是机器学习的核心。本教程将介绍DeepChem用于存储和管理数据的“Dataset”类。它为高效地处理大量数据提供了简单但强大的工具。它还被设计成易于与其他流行的Python框架交互，如NumPy、Pandas、TensorFlow和PyTorch。

## Colab

This tutorial and the rest in this sequence can be done in Google colab. If you'd like to open this notebook in colab, you can use the following link.

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/deepchem/deepchem/blob/master/examples/tutorials/Working_With_Datasets.ipynb)



In [None]:
%pip install --pre deepchem

We can now import the `deepchem` package to play with.

In [1]:
import deepchem as dc
dc.__version__

  from .autonotebook import tqdm as notebook_tqdm


'2.6.1'

# 数据集的结构

在上一个教程中，我们加载了关于化合物溶解度的Delaney数据集。现在，让我们再次加载它。

In [2]:
import deepchem as dc
tasks, datasets, transformers = dc.molnet.load_delaney(featurizer='GraphConv')
train_dataset, valid_dataset, test_dataset = datasets

我们现在有三个Dataset对象:训练集、验证集和测试集。它们各自包含什么信息?我们可以先打印出其中一个的字符串表示形式。

In [3]:
print(test_dataset)

<DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['c1cc2ccc3cccc4ccc(c1)c2c34' 'Cc1cc(=O)[nH]c(=S)[nH]1'
 'Oc1ccc(cc1)C2(OC(=O)c3ccccc23)c4ccc(O)cc4 ' ...
 'c1ccc2c(c1)ccc3c2ccc4c5ccccc5ccc43' 'Cc1occc1C(=O)Nc2ccccc2'
 'OCC3OC(OCC2OC(OC(C#N)c1ccccc1)C(O)C(O)C2O)C(O)C(O)C3O '], task_names: ['measured log solubility in mols per litre']>


这里有很多信息，所以让我们从头开始。它以标签“DiskDataset”开始。Dataset是一个抽象类。它有几个子类，对应于存储数据的不同方式。

- `DiskDataset` 是一个已经保存到硬盘上的数据集。数据以一种可以高效访问的方式储存在电脑上，即使数据的总量远远大于计算机的内存。
- `NumpyDataset` 是一个存在于内存的数据集，它将所有数据保存在NumPy数组中。当操作可以完全放入内存的中小型数据集时，它是一个有用的工具。
- `ImageDataset` 是一个更专门的类，它存储部分或所有在硬盘上的图像文件数据。在处理以图像作为输入或输出的模型时，它非常有用。

现在让我们讨论数据集的内容。每个数据集存储 *样本（samples）* 列表。非常粗略地说，一个样本是单个数据点。现在的情况下，每个样本都是一个分子。在其他数据集中，一个样本可能对应于一个实验测定数据、一个细胞系、一张图像或许多其他东西。对于每个样本，数据集存储以下信息。

- *特征*，被称为`X`。这个用来作为样本输入到模型中。
- *标签*，称为`y`。这个是我们希望模型输出的。在训练过程中，模型试图使每个样本的输出尽可能接近`y`。
- *权重*，称为`w`。这个用来表示某些数据值比其他数据值更重要。在后面的教程中，我们将看到一些巧妙使用了权重的例子。
- *ID*，是样本的唯一标识符。它可以是任何东西，只要它是唯一的。有时它只是一个整数索引，但在这个数据集中，ID是描述分子的SMILES字符串。

注意，`X`、`y`和`w`的第一个维度的大小都是113。这意味着该数据集包含113个样本。

打印输出中列出的最后一条信息是 **task_names**。有些数据集包含对应于每个样本的多条信息。例如，如果一个样本代表一个分子，那么数据集可能会记录针对该分子的几个不同实验的结果。但这个数据集只有一个任务(task):“测量的 log(溶解度), 单位为摩尔/升)”。还要注意 **y** 和 **w** 都有形状(113,1)。这些数组的第二个维度通常与任务的数量相匹配。

# 从数据集访问数据

有许多方法可以访问数据集中包含的数据。最简单的方法是直接访问 **X** ， **y**， **w** 和 **ids** 属性。每一个都以NumPy数组的形式返回相应的信息。

In [4]:
test_dataset.y

array([[-1.60114461],
       [ 0.20848251],
       [-0.01602738],
       [-2.82191713],
       [-0.52891635],
       [ 1.10168349],
       [-0.88987406],
       [-0.52649706],
       [-0.76358725],
       [-0.64020358],
       [-0.38569452],
       [-0.62568785],
       [-0.39585553],
       [-2.05306753],
       [-0.29666474],
       [-0.73213651],
       [-1.27744393],
       [ 0.0081655 ],
       [ 0.97588054],
       [-0.10796031],
       [ 0.59847167],
       [-0.60149498],
       [-0.34988907],
       [ 0.34686576],
       [ 0.62750312],
       [ 0.14848418],
       [ 0.02268122],
       [-0.85310089],
       [-2.72079091],
       [ 0.42476682],
       [ 0.01300407],
       [-2.4851523 ],
       [-2.15516147],
       [ 1.00975056],
       [ 0.82588471],
       [-0.90390593],
       [-0.91067993],
       [-0.82455329],
       [ 1.26909819],
       [-1.14825397],
       [-2.1343556 ],
       [-1.15744727],
       [-0.1045733 ],
       [ 0.53073162],
       [-1.22567118],
       [-1

这是一种非常简单的访问数据方法，但是在使用它时应该非常小心。这需要将所有样本的数据同时加载到内存中。这对于像这样的小型数据集来说没什么问题，但对于大型数据集，它很容易占用比计算机所拥有的更多的内存。

更好的方法是遍历数据集。这让它每次只加载一点数据，处理它，然后在加载下一个部分之前释放内存。你可以使用 **itersamples()** 方法一次遍历一个样本。

In [5]:
for X, y, w, id in test_dataset.itersamples():
    print(X, y, w, id)
    break

<deepchem.feat.mol_graphs.ConvMol object at 0x0000028E090871F0> [-1.60114461] [1.] c1cc2ccc3cccc4ccc(c1)c2c34


大多数深度学习模型可以同时处理一批多个样本。你可以使用 `iterbatches()` 来遍历每批次样本。

In [6]:
for X, y, w, ids in test_dataset.iterbatches(batch_size=50):
    print(y.shape)

(50, 1)
(50, 1)
(13, 1)


`iterbatches()` 在训练模型时还有其他有用的特性。例如， `iterbatches(batch_size=100, epochs=10, deterministic=False)` 将遍历整个数据集十次，每次都以不同的随机顺序。

数据集还可以使用TensorFlow和PyTorch的标准接口访问数据。如果要获取 `tensorflow.data.Dataset`，请调用 `make_tf_dataset()` 。如果要获取 `torch.utils.data.IterableDataset` ，请调用 `make_pytorch_dataset()` 。有关更多细节，请参阅API文档。

最后一种访问数据的方法是 `to_dataframe()` 。这将数据复制到Pandas的 `DataFrame` 中。这需要一次性将所有数据存储在内存中，所以你应该只对小型数据集使用它。

In [7]:
test_dataset.to_dataframe()

Unnamed: 0,X,y,w,ids
0,<deepchem.feat.mol_graphs.ConvMol object at 0x...,-1.601145,1.0,c1cc2ccc3cccc4ccc(c1)c2c34
1,<deepchem.feat.mol_graphs.ConvMol object at 0x...,0.208483,1.0,Cc1cc(=O)[nH]c(=S)[nH]1
2,<deepchem.feat.mol_graphs.ConvMol object at 0x...,-0.016027,1.0,Oc1ccc(cc1)C2(OC(=O)c3ccccc23)c4ccc(O)cc4
3,<deepchem.feat.mol_graphs.ConvMol object at 0x...,-2.821917,1.0,c1ccc2c(c1)cc3ccc4cccc5ccc2c3c45
4,<deepchem.feat.mol_graphs.ConvMol object at 0x...,-0.528916,1.0,C1=Cc2cccc3cccc1c23
...,...,...,...,...
108,<deepchem.feat.mol_graphs.ConvMol object at 0x...,-1.656304,1.0,ClC4=C(Cl)C5(Cl)C3C1CC(C2OC12)C3C4(Cl)C5(Cl)Cl
109,<deepchem.feat.mol_graphs.ConvMol object at 0x...,0.743629,1.0,c1ccsc1
110,<deepchem.feat.mol_graphs.ConvMol object at 0x...,-2.420799,1.0,c1ccc2c(c1)ccc3c2ccc4c5ccccc5ccc43
111,<deepchem.feat.mol_graphs.ConvMol object at 0x...,-0.209570,1.0,Cc1occc1C(=O)Nc2ccccc2


# 创建数据集

现在让我们谈谈如何创建自己的数据集。创建 `NumpyDataset` 非常简单:只需将包含数据的数组传递给构造函数。让我们创建一些随机数组，然后将它们包装在NumpyDataset中。

In [8]:
import numpy as np

X = np.random.random((10, 5))
y = np.random.random((10, 2))
dataset = dc.data.NumpyDataset(X=X, y=y)
print(dataset)

<NumpyDataset X.shape: (10, 5), y.shape: (10, 2), w.shape: (10, 1), ids: [0 1 2 3 4 5 6 7 8 9], task_names: [0 1]>


注意，我们没有指定权重或IDs。这些是可选的，就像`y`一样。`NumpyDataset`只要求`X`。因为我们没有给权重或IDs，它自动为我们构建 `w` 和 `ids` 数组，将所有权重设置为1，并将IDs设置为整数索引。

In [9]:
dataset.to_dataframe()

Unnamed: 0,X1,X2,X3,X4,X5,y1,y2,w,ids
0,0.1747,0.263876,0.648366,0.524876,0.27989,0.550705,0.590629,1.0,0
1,0.589321,0.560484,0.334852,0.252271,0.062301,0.661629,0.171097,1.0,1
2,0.9313,0.010313,0.805909,0.463882,0.528435,0.185917,0.952389,1.0,2
3,0.034193,0.262676,0.107053,0.625528,0.284038,0.019462,0.777401,1.0,3
4,0.821443,0.324785,0.877585,0.378755,0.100237,0.715653,0.312279,1.0,4
5,0.896011,0.914095,0.521667,0.26929,0.850893,0.28713,0.284443,1.0,5
6,0.442959,0.17649,0.725884,0.37186,0.376378,0.143646,0.297482,1.0,6
7,0.928692,0.376942,0.62041,0.23326,0.776084,0.107772,0.848727,1.0,7
8,0.756704,0.409042,0.084156,0.631411,0.654721,0.866888,0.232316,1.0,8
9,0.352147,0.485467,0.671812,0.25751,0.542769,0.266943,0.734985,1.0,9


如何创建 DiskDataset ？ 如果数据在NumPy数组中，可以调用 `DiskDataset.from_numpy()` 将其保存到硬盘中。由于这只是一个教程，我们将把它保存到一个临时目录。

In [10]:
import tempfile

with tempfile.TemporaryDirectory() as data_dir:
    disk_dataset = dc.data.DiskDataset.from_numpy(X=X, y=y, data_dir=data_dir)
    print(disk_dataset)

<DiskDataset X.shape: (10, 5), y.shape: (10, 2), w.shape: (10, 1), ids: [0 1 2 3 4 5 6 7 8 9], task_names: [0 1]>


内存无法容纳的大型数据集怎么办?如果你在硬盘上有一些包含数以亿计分子数据的巨大文件呢?从它们创建 DiskDataset 的过程稍微复杂一些。幸运的是，DeepChem的 `DataLoader` 框架可以为你自动完成大部分工作。这是一个大的主题，所以我们将在后面的教程中讨论。

# Congratulations! Time to join the Community!

Congratulations on completing this tutorial notebook! If you enjoyed working through the tutorial, and want to continue working with DeepChem, we encourage you to finish the rest of the tutorials in this series. You can also help the DeepChem community in the following ways:

## Star DeepChem on [GitHub](https://github.com/deepchem/deepchem)
This helps build awareness of the DeepChem project and the tools for open source drug discovery that we're trying to build.

## Join the DeepChem Gitter
The DeepChem [Gitter](https://gitter.im/deepchem/Lobby) hosts a number of scientists, developers, and enthusiasts interested in deep learning for the life sciences. Join the conversation!