PyTorch数据预处理

发表于 2021-07-28 | 分类于技术文章，深度学习， PyTorch

用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，而不是从那些准备好的张量格式数据开始。读取数据集为了方便数据的读取，我们需要将使用的数据包装为Dataset类,自定义的Dataset需要继承它并且实现两个成员方法： __getitem__() 该方法定义用索引(0 到 len(se ...

阅读全文 »

PyTorch的数据操作

发表于 2021-07-13 | 分类于技术文章，深度学习， PyTorch

PyTorch中的数据可以分为：张量（Tensor）、变量（Variable）、参数（Parameter）三种：张量张量是一个具有特定类型数值组成的高阶数组，其形状表现为沿着每一阶对应的轴上按指定的维度展开。在pytorch中，张量支持GPU加速计算，同时可以实现自动微分。12345678910 ...

阅读全文 »

ElasticSearch：存储数据

发表于 2021-06-25 | 分类于技术文章，信息检索， ElasticSearch

存储数据需要定义的是文档的结构，即数据包含哪些字段，各字段都是什么类型，哪些字段被用作全文检索，并使用哪种分析器。在实际应用中，我们希望能够批量地导入文档，而不是一条文档一条文档地去执行 POST 操作。 Mapping基本概念Mapping 对应关系型数据库的 schema 的定义，其作用包括定义 ...

阅读全文 »

ElasticSearch：基础知识

发表于 2021-06-06 | 分类于技术文章，信息检索， ElasticSearch

安装配置下载最新的 ES7.X Linux版本，其内置了JDK，所以不再需要本地 JDK 环境，解压后包括以下目录： bin ：脚本文件，包括 ES 启动 & 安装插件等等 config ： elasticsearch.yml（ES 配置文件）、jvm.options（JVM 配置文件）、 ...

阅读全文 »

面向机器学习的NumPy知识点汇总

发表于 2021-05-05 | 分类于技术文章，数据科学， NumPy

NumPy 数组的维数可以对应为张量的秩（rank），即轴的数量，一维数组的秩为 1，二维数组的秩为 2，以此类推。多维数组中每一个线性的数组对应一个轴（axis）。 a = numpy.array([[[1,2], [2,3]], [[2,3], [3,4]]]) nd ...

阅读全文 »

HTML知识点汇总

发表于 2021-04-09 | 分类于技术文章，前端技术，静态网页

以标签为元素HTML是用来描述网页的语义的一种语言，该语言由一套标记标签组成123456789<html><body><p>This is my first paragraph.</p><br /><a href& ...

阅读全文 »

Pandas时序数据

发表于 2021-03-24 | 分类于技术文章，数据科学， Pandas

时间序列的概念在日常生活中十分常见，但对于一个具体的时序事件而言，可以从多个时间对象的角度来描述。例如 “2020 年 9 月 7 日周一早上 8 点整需要到教室上课，这个课会在当天早上 10 点结束”，其中包含了如下一些时序概念：时间戳：即 ’2020-9-7 08\:00:00’ 和 ’2 ...

阅读全文 »

Pandas分组操作

发表于 2021-03-07 | 分类于技术文章，数据科学， Pandas

分组操作在日常生活中使用极其广泛，想要实现分组操作，必须明确三个要素：分组依据、数据来源、操作及其返回结果。所以，分组代码的范式可以写作： df.groupby(分组依据)[数据来源].使用操作分组的依据可以是多种多样的，可以是某个列名，某几个列名，还可以是复杂的逻辑组合：1234567891 ...

阅读全文 »

Pandas表格变形

发表于 2021-02-16 | 分类于技术文章，数据科学， Pandas

长宽表的变形例如：一个表中把性别存储在某一个列中，那么它就是关于性别的长表；如果把性别作为列名，列中的元素是某一其他的相关特征数值，那么这个表是关于性别的宽表。1234567891011121314151617import pandas as pddf_long = pd.DataFrame( ...

阅读全文 »

Pandas连接合并

发表于 2021-01-23 | 分类于技术文章，数据科学， Pandas

将两张表通过连接、拼接等操作合并成一张表的操作是对表格数据最常用的操作。关系型连接把两张相关的表按照某一个或某一组键连接起来是一种常见操作，例如学生期末考试各个科目的成绩表按照姓名和班级连接成总的成绩表。在 Pandas 中的关系型连接函数有 merge() 和 join()，它们最重要的参数有两 ...

阅读全文 »