PyTorch实战：分布式训练

发表于 2022-04-06 | 分类于技术文章，深度学习， PyTorch

当前深度学习模型训练正在朝着大模型的趋势发展，这里包括海量的训练数据（预训练）以及亿级别的模型参数，而我们单张显卡的计算与存储资源是相对有限的，因此需要针对大规模数据进行分布式训练，甚至还要对模型进行并行化处理（有可能模型的参数多到 batch_size=1 的数据都无法喂入）。尽管分布式训练听起来 ...

阅读全文 »

PyTorch实战：基于BERT的NER

发表于 2022-02-26 | 分类于技术文章，深度学习， PyTorch

命名实体识别（NER）是 NLP 中传统的序列标注任务，随着近年来预训练语言模型的兴起，很多 NLP 的传统任务都演化为了“基于预训练模型的微调”这样的范式。所以，本节我们将使用 BERT+BiLSTM+CRF 的框架来实现中文命名实体识别的任务，我们使用 CLUENER2020 的数据进行实验，我 ...

阅读全文 »

PyTorch实战：聊天机器人

发表于 2022-01-22 | 分类于技术文章，深度学习， PyTorch

数据预处理我们使用Cornell Movie-Dialogs Corpus的电影剧本作为聊天机器人的训练语料，下载解压后主要使用 movie_lines.txt 和 movie_conversations.txt 这两个文件。两者都是以 “ +++$+++ ” 作为分隔符的结构化数据，前者包含了 ( ...

阅读全文 »

PyTorch实战：机器翻译

发表于 2021-12-17 | 分类于技术文章，深度学习， PyTorch

从WMT18下载机器翻译数据集 News Commentary v13，并从中取出中英部分的平行语料，该部分为两个以 .en 和 .zh 为后缀的文件，文件的每一行是一个中文或英文的句子，两者一一对应互为翻译。数据预处理我们准备构建一个简单的“中到英”机器翻译系统，所以我们把中文语料作为源语言，英 ...

阅读全文 »

PyTorch实战：文本分类

发表于 2021-11-02 | 分类于技术文章，深度学习， PyTorch

下载单标签多分类数据集20 Newsgroups，该数据集包含 20 个不同主题的新闻组文章。我们将在本节请全方位地通过文本分类任务介绍如何进行深度学习实验，包括数据集的构建与划分、训练集与验证集上的调参，以及最终的测试报告生成。数据预处理我们下载的数据解压后是由20个文件夹组成的，每个文件夹对应 ...

阅读全文 »

PyTorch实战：语言模型

发表于 2021-10-08 | 分类于技术文章，深度学习， PyTorch

结合前面介绍的PyTorch基础，我们将进行一系列的实战操练，首先从NLP中最基本的语言模型入手。传统的语言模型是一个使用句子的前文若干个单词预测后文的下一个单词，很明显这是一个序列问题，应该使用循环神经网络来建模。我们先导入相关的包，并选择合适的算力设备：123456import torch,pi ...

阅读全文 »

PyTorch优化器与正则化

发表于 2021-10-02 | 分类于技术文章，深度学习， PyTorch

优化器就是需要根据网络反向传播的梯度信息来更新网络的参数，以起到降低loss函数计算值的作用，Pytorch 提供了十多种优化器算法，它们的基类都是torch.optim.Optimizer，具有如下的基本属性与基本方法：基本属性default：优化器的超参数state：参数的缓存param ...

阅读全文 »

PyTorch激活与损失函数

发表于 2021-09-15 | 分类于技术文章，深度学习， PyTorch

PyTorch中的激活函数与损失函数都存在两种调用模式，nn.xx对象和torch.xx类函数（或者定义在torch.nn.functional.xx中），前者是包装好的类，后者是可以直接调用的函数；nn.xx 类的 forward( ) 函数中调用了 torch.xx 函数。激活函数我们在构建深 ...

阅读全文 »

PyTorch常用网络层

发表于 2021-08-19 | 分类于技术文章，深度学习， PyTorch

上一节我们使用了PyTorch的线性层（也叫全连接层）torch.nn.Linear( )，体验到了使用PyTorch封装好的函数构建神经网络的便捷。所以，这一节我们将处理一下常用的网络函数12import torchfrom torch import nn Embedding层实现自然语言处理任务 ...

阅读全文 »

PyTorch构建神经网络

发表于 2021-08-08 | 分类于技术文章，深度学习， PyTorch

一个简单的回归模型可以写作： $y = X * W + b$ 其中 $W$ 和 $b$ 作为模型的参数，需要通过给定的训练数据学习而得，训练的过程就是尽可能找到最优的 $W$ 和 $b$ 。我们使用经典的回归数据——波士顿房价数据集来演示如何使用 PyTorch 构建神经网络。 12345678 ...

阅读全文 »