Как преобразовать вывод нейронной сети и при этом тренироваться?

Question 1

У меня есть нейронная сеть, которая выводит output. Я хочу преобразиться output до того, как произойдет потеря и обратное продвижение.

Вот мой общий код:

with torch.set_grad_enabled(training):
                  outputs = net(x_batch[:, 0], x_batch[:, 1]) # the prediction of the NN
                  # My issue is here:
                  outputs = transform_torch(outputs)
                  loss = my_loss(outputs, y_batch)

                  if training:
                      scheduler.step()
                      loss.backward()
                      optimizer.step()

У меня есть функция преобразования, через которую я пропускаю свой вывод:

def transform_torch(predictions):
    torch_dimensions = predictions.size()
    torch_grad = predictions.grad_fn
    cuda0 = torch.device('cuda:0')
    new_tensor = torch.ones(torch_dimensions, dtype=torch.float64, device=cuda0, requires_grad=True)
    for i in range(int(len(predictions))):
      a = predictions[i]
      # with torch.no_grad(): # Note: no training happens if this line is kept in
      new_tensor[i] = torch.flip(torch.cumsum(torch.flip(a, dims = [0]), dim = 0), dims = [0])
    return new_tensor

Моя проблема в том, что я получаю ошибку в предпоследней строке:

RuntimeError: a view of a leaf Variable that requires grad is being used in an in-place operation.

Есть какие-нибудь предложения? Я уже пробовал использовать "с torch.no_grad():" (прокомментировал), но это приводит к очень плохой подготовке, и я считаю, что градиенты не возвращаются должным образом после функции преобразования.

Спасибо!

Question 2

Ошибка совершенно верна в том, в чем проблема - когда вы создаете новый тензор с requires_grad = True, вы создаете конечный узел в графике (точно так же, как параметры модели), и вам не разрешается выполнять операции на нем на месте.

Решение простое, вам не нужно создавать new_tensor заранее. Он не должен быть конечным узлом; просто создайте его на лету

new_tensor = [ ]
for i in range(int(len(predictions))):
    a = predictions[i]
    new_tensor.append(torch.flip(torch.cumsum(torch.flip(a, ...), ...), ...))

new_tensor = torch.stack(new_tensor, 0)

Этот new_tensor унаследует все свойства, такие как dtype, device От predictions и придется require_grad = True уже.

ayandas · Answer 1 · 2021-11-20T04:18:52

Ошибка совершенно верна в том, в чем проблема - когда вы создаете новый тензор с requires_grad = True, вы создаете конечный узел в графике (точно так же, как параметры модели), и вам не разрешается выполнять операции на нем на месте.

Решение простое, вам не нужно создавать new_tensor заранее. Он не должен быть конечным узлом; просто создайте его на лету

new_tensor = [ ]
for i in range(int(len(predictions))):
    a = predictions[i]
    new_tensor.append(torch.flip(torch.cumsum(torch.flip(a, ...), ...), ...))

new_tensor = torch.stack(new_tensor, 0)

Этот new_tensor унаследует все свойства, такие как dtype, device От predictions и придется require_grad = True уже.

Как преобразовать вывод нейронной сети и при этом тренироваться?

Вопрос

Лучший ответ

На других языках

Эта страница на других языках

Популярное в этой категории

Популярные вопросы в этой категории