Blog of Evan Hou

学习 生活 分享

不要怂,就是GAN

GAN学习初探

本文摘自文章《到底什么是生成式对抗网络GAN?》,部分内容稍作修改。 首先,先介绍一下生成模型(generative model),它在机器学习的历史上一直占有举足轻重的地位。当我们拥有大量的数据,例如图像、语音、文本等,如果生成模型可以帮助我们模拟这些高维数据的分布,那么对很多应用将大有裨益。 针对数据量缺乏的场景,生成模型则可以帮助生成数据,提高数据数量,从而利用半监督学习提...

NLP的游戏规则从此改写

语言模型

本文摘自夕小瑶专栏文章《NLP的游戏规则从此改写?从word2vec,ELMo和BERT》,部分内容稍作修改。 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络”变成了NLP领...

基于神经网络的实体识别和关系抽取联合学习

命名实体识别

本文摘自博客《基于神经网络的实体识别和关系抽取联合学习》,部分内容略微修改 联合学习(joint learning) 一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习,触发词抽取和论元抽取联合学习等。最...

Pytorch学习

Pytorch基础

本文参照chenyuntc 的github项目 pytorch-book,部分内容略微修改,仅作学习参考使用 Pytorch基础 Tensor Tensor 是Pytorch中重要的数据结构,可以认为是一个高维数组。它可以是一个数(标量)、一维数组(向量)、二维数组(矩阵)以及更高维的数组。Tensor和Numpy的ndarrays类似,但Tensor可以使用GPU进行加速...

GBDT算法原理初探

集成学习

本文参照博客《GBDT算法原理深入解析》,部分内容略微修改 GBDT算法:原理篇 GBDT是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。这里简单介绍下GBDT算法的原理。 梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术,属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算...

Boosting与Bagging

集成学习

个体与集成 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统,基于委员会的学习。 下图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,例如C4.5决策树算法、BP神经网络算法等,此时集成中只包含同种类型的个体学习器,例如“决策树集成”中全是决策树...

排序算法

排序

排序的基本概念 排序(sorting)是按关键字的非递减或非递增顺序对一组记录重新进行整队(或排列)的操作。 当待排序记录中的关键字$k_i(i=1,2,…,n)$都不相同时,则任何一个记录的无序序列经排序后得到的结果是唯一的;反之,若待排序的序列中存在两个或两个以上关键字相等的记录时,则排序所得到的记录序列的结果不唯一。假设$k_i=k_j(1\leq i \leq n,1\leq j...

概率和信息论—下篇

概率

信息论 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含义噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何设计最优编码,以及计算从一个特定的概率分布上采样得到、使用多种不同编码机制的消息的期望长度。在机器学习中,我们也可以把信息论应用在连续型变量上,而信息论中一些消息长度的解释不怎么使用...

概率和信息论—上篇

概率

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。在人工智能领域,概率论主要由两种用途。首先,概率论告诉我们AI系统如何推理,据此我们设计一些算法来计算或者估算概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI系统的行为。 1.为什么要使用概率论 计算机科学的许多分支处理的实体大部分都是完全确定且必然的。...

LDA浅析

主题模型

什么是主题模型 话题模型(topic model)是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表,它可以将文档集中每篇文档的主题以概率分布的形式给出。通过分析一些文档,我们可以抽取出它们的主题(分布),根据主题(分布)进行主...