红楼梦、法律,BERT 已有如此多的神奇应用

时间:2019-09-04 来源:www.gdlsxny.com

“红楼梦”,法律,BERT有如此多的神奇应用

机器的原始心脏

作者:Peter Tsang非常

王浩

在2019年5月的ACM图灵会议上,朱松春博士(加州大学洛杉矶分校)和沉向阳博士(微软全球执行副总裁)谈到了“人工智能时代的道路选择”这一主题。沉向阳博士认为,人工智能开发将迎来工业的黄金十年,朱松春教授还表示,人工智能的发展趋势将朝着一个统一的系统发展,从小任务到大任务,从AI六大学部门要团结。

自然语言处理领域的BERT模型刚刚证实了这一规则。 BERT尝试使用统一模型来处理自然语言处理领域中的经典任务,例如阅读理解,常识推理和机器翻译。事实证明,自去年10月谷歌发布BERT以来,BERT开始了漫长的黑客攻击之路。在机器阅读理解水平测试中,SQUAD1.1 BERT表现出惊人的成绩,所有两项指标全面超越人类,并且在11项不同的NLP测试中也取得了最佳成绩,包括将GLUE基准推向80.4%(绝对改善7.6%)和MultiNLI准确率为86.7%(绝对改善率为5.6%)。尽管近年来出现了冉冉升起的新星,但这一经典在各种指标上都超越了这一经典,但这只是对该架构的一个小修改。毫无疑问,BERT开辟了自然语言处理领域的新纪元。

最近发布的XLNet在很多方面都超越了BERT,但BERT语言模型和法律文件,科学论文等现有领域的交叉应用实例对XLNet的应用仍具有重要意义。

这篇文章的作者是曾祥基。他目前正在浙江大学攻读硕士学位。他的方向是常识推理和AutoML。他希望与其他人一起学习并讨论研究论文。

1.简介

BERT,GPT和ELMo模型架构图,源

在过去的十年中,深度学习的复兴带来了自然语言处理领域的翻天覆地的变化。特别是,2013年引入简化的单词嵌入word2vec为自然语言处理领域的深度学习铺平了道路。由于神经网络基于张量空间的数值计算,因此神经网络不能很好地表示自然语言文本。需要在自然语言文本和神经网络之间建立桥梁来完成这种转换,而词嵌入则是桥梁。 Word嵌入可以将自然语言文本转换为语义空间中的低维密集数值向量。然而,单词向量转换后的句子表示在整个语义层面仍然存在较大的缺陷,因为单词嵌入不能有效地解决多义词的问题。

语言预训练模型试图从另一个想法解决上下文语义表示的问题。互联网上有大量的文本数据。但是,大多数这些文本都是未标记的数据。 AllenNLP ELMo模型解决了从这些大量未标记的文本数据中获得上下文语义表示的问题。但受LSTM功能的限制,ELMo模型只是一个使用三层BiLSTM的网络模型。从传统的角度来看,深度学习模型需要深化模型网络层,以便捕获更准确的语义表示。

OpenAI GPT模型解决了这个问题。 GPT使用Transformer的编码层作为网络的基本单元。 Transformer丢弃RNN的循环网络结构,并根据注意机制对文本进行完全建模,从而可以完成网络模型。更深的。此外,Transformer解决了RNN无法并行计算的缺点,这开辟了缩短模型训练时间和增加训练数据集的可能性。

BERT就是基于此。与GPT从左到右单向扫描句子相比,BERT模型的每个单词都可以感知两侧的上下文,从而可以捕获更多信息。 BERT使用两个超大数据集:BooksCorpus(800M字)和英语维基百科(2500M字)进行预训练。因此,可以说BERT对语言有一定程度的语义理解。 BERT可以用作其他任务网络模型的上游骨架。它可以很好地提取任务数据的语义表示向量。我们只需要对其进行微调即可获得良好的效果。这导致了许多神奇的下游应用。

2.申请

2.1。红楼梦想知识提取

红楼梦想人物地图,来源

知识地图是人工智能研究的核心问题。它是人类对世界的近似表达和理解,它可以使机器具有准确查询,理解和逻辑推理的能力。知识地图相关技术主要分为三个部分:知识提取,知识表示和知识应用。知识提取主要负责从各种结构化和非结构化信息中提取实体和关系,以构建知识地图。知识表示是研究如何更好地表示知识,知识应用是为每个下游任务使用已经构建的知识地图赋予机器理解世界的能力。

知识地图也可以帮助我们快速理解小说的人物关系。对于那些没有读过“红楼梦”或阅读和理解的学生,我们可以使用BERT建立一个知识提取机器学习模型,从“红楼梦”中提取人物。也就是说,实体,并分析人物和人物之间的关系,这对我们快速理解小说的人物结构非常有帮助。一位作者使用BERT为“红楼梦”的简单角色知识地图建模。接下来,我们将详细阐述作者如何从“红楼梦”中提取人物和关系。

1)数据准备:作者首先使用正则表达式从“红楼梦”中提取对话。如果推测该段落的人的姓名出现在该段落的前面,则该段落之前的段落可以用作说话者。演讲者的背景)。如果在此上下文中不存在说话者,则标签为空字符串。目前,效果较好的物理提取模型多为监督学习模型,因此基于BERT的实体提取模型也采用监督方法对模型进行训练。因此,作者在物理上注释先前提取的对话。此外,由于实体之间的解抽取技术仍然不成熟,作者做了一个非常简单的假设,即邻居被认为是对话,这可以在一定程度上建立。注释数据的一些结果如下:

{'uid': 1552,'context':'黛玉又:','发音':'黛玉','istart': 0,'iend': 2}

{'uid': 1553,'context':'铭文云:','发言人':无,'istart': -1,'iend': 0}

{'uid': 1554,'context':'Bao Weidao:','speaker':'Baoobao','istart': 0,'iend': 2}

{'uid': 1555,'context':'五个祖先将把他的衣服传给他。今天这句谚语也是一样的。只是这是机器前端。它尚未完全关闭。 '黛玉笑道:','发音':'黛玉','istart': 46,'iend': 48}

{'uid': 1556,'context':'Bao Yu认为他开悟了。他不想被隋瑜问,他无法回答。宝迪比“报价”更好,他们没有看到它们。我为自己想:','发音':'宝玉','istart': 0,'iend': 2}

{'uid': 1557,'context':'如果你想完成,你会笑:','发音':无,'istart': -1,'iend': 0}

{'uid': 1558,'context':'说起来,这四个仍旧。突然,记者报道说,这位少女向谜语发出了一个谜语,并告诉所有人猜测,猜测每个人都会做出一个。四个人听说他们正忙着去佳木家。我看到一个小太监,拿了一个四角平头白色纱布灯,这是为谜语制作的。已经有一个,每个人都在争论和猜测。小太监走了下来说:'''发言人':'小太监','istart': 103,'iend': 106}

{'uid': 1559,'context':'太监走了,夜晚出来了'','发言人':'Eunuch','istart': 0,'iend': 2}

虽然作者花了两个小时来标记1500个数据。

2)模型:作者构造实体提取模型的想法是将实体提取任务视为QA问题,即问题是会话语句,答案是提取的实体。因此,作者基于BERT并在阅读理解任务SQuAD上建模模型。模型。

3)预测结果:由于BERT模型的强弱,作者发现通过简单的问答训练,实体提取的效果非常好。只发生一些问题。以下是一些预测结果:

4)人际关系:对于人物实体关系的提取,作者使用规则根据先前的假设分析人物关系。其中,宝玉与攻击者之间的对话最多(178 + 175),宝玉与黛玉的对话次之(177 + 174),宝玉与宝玉之间的对话(65 + 61),仅次于对话。在宝玉眼中,攻击者和玉石几乎是一样的。宝迪(65 + 61)仅占玉石的三分之一,略高于清文(46 + 41)。

最后,作者在gitlab

上传了自己的代码

2.2。情报侦测

随着互联网用户数量的增加,互联网上的信息已经达到了无法处理人力资源的程度。对情报信息的检测变得非常重要。灾害信息是一种情报信息。它是在灾害和其他紧急情况的准备,缓解,响应和恢复阶段使用信息和技术,如爆炸检测,情绪分析和危害评估。

如果没有有效检测到Facebook和Twitter等社交网站上的灾难信息,这将是一个巨大的安全风险。传统的灾害信息检测方法是基于关键字过滤的,但这种方法存在很大问题。首先,灾害信息的组织形式在不断变化。其次,不可能有效地维护社会公司有限的人力资源。关键字语料库。

马国勤提取了基于BERT的机器学习模型来处理灾难信息。他认为Twitter上的灾难信息处理是一个文本分类问题。因此,在作者使用的数据集中,作者将推文信息和灾难类型分为以下几类:

作者使用单层双向LSTM作为基准,然后在BERT之上导出四种模型变体,默认BERT,BERT + NL,BERT + LSTM,BERT + CNN。

默认BERT仅将单层全连接网络和softmax添加到BERT输出层,而BERT + NL是多层全连接网络和softmax。顾名思义,BERT + LSTM是输入到LSTM网络的BERT输出层,最后是LSTM输出然后通过softmax输出,BERT + CNN的原理相同,只是LSTM被CNN取代。

最终的实验结果如下图所示。我们可以看到基于BERT的模型超过了所有指标的基于LSTM的基准模型。

最后,作者在github上载了自己的代码

2.3。文章写作

在自然语言处理的任务中,可以使用经典的sequence2序列模型来完成文本生成,即编码器和解码器模型结构,其中编码器和解码器通常使用RNN来实现。使用BERT生成文本的任务通常是一个难题。原因是BERT在预训练中使用MASK方法。这是一种自编码(AE)方法。我将使用上下文一起训练并尝试重现原始输入。与BERT相比,一般LSTM使用上述方法,该方法是自然回归(AR)方法,其自然适用于文本生成,因为文本生成是从左到右的单词和单词生成的。

那么BERT不能应用于文本生成吗? Alex Wang在他的论文“BERT有一个嘴,它必须说出: BERT作为马尔可夫随机场语言模型”中解释了这一点。该论文的标题直接回答了这个问题。 BERT嘴巴说话。

本文作者首先结合伪对数似然来证明BERT是马尔可夫随机场模型(MRF-LM),马尔可夫随机场是一个联合概率分布,可以用无向图表示,即下一个时间点只与当前状态有关,属于生成模型。同时,由于BERT在某种程度上学会了句子的分布,这意味着我们可以使用BERT进行文本生成,如新闻写作和小说写作。

但出乎意料的是,该论文的作者后来在他的博客中宣称他的推论是错误的。 BERT不是马尔可夫随机场。请参阅段落末尾的链接。虽然作者声称BERT不是马尔可夫随机场,但它仍然可以用作生成模型。

博客链接:

我们可以看到代的影响如下(左边是BERT生成的影响,右边是GPT生成的影响):

最后,作者将他的代码上传到Github

2.4。法律文书BERT

法律文件,来源

在自然语言处理领域,训练数据的文本质量非常重要。高质量的文本数据可以使模型学得更快更好。法律行业是一个具有高质量文本数据的稀有行业,因为法律文件,合同和其他文本的质量与相关人员的切身利益密切相关,因此有关各方将反复审查文件的内容,确保文本的质量。

近年来,清华大学人工智能研究所和电力法律智能研究所在中国领域发布了几种预训练BERT模型,其中民用BERT和犯罪BERT是法律领域的特殊训练前语言模型。

BERT的民事文件是根据2654份民事文件进行培训的。经过测试,它可以在相关的法律任务中更快地学习,并且明显优于谷歌的官方中文BERT。犯罪BERT基于663万份刑事文件进行培训,其相关任务的表现优于原中国BERT。以下是测试结果:

该项目的预培训法律BERT模型与众所周知的开源项目完全兼容,但模型参数已发生变化。此外,由于pytorch-pretrained-BERT已有详细记录,因此该模型可以非常快速地用于想要尝试模型并熟悉pytorch的学生。

我们可以在GitHub上找到有关项目的信息并链接到模型:

2.5。科学论文

最近,美国能源部劳伦斯伯克利国家实验室在《自然》杂志上发表的最近一篇论文引起了广泛的关注。研究人员表示,他们无人监督的训练前词汇嵌入到材料科学领域300万篇论文的自动阅读中,并发现新的科学知识。他们使用word2vec算法进行单词嵌入训练。通过解释单词和单词之间的关系,我们可以提前几年预测新的热电材料,并找到在目前未知的材料中具有潜在应用的候选者。材料。

在纸质文本预训练领域,还有基于BERT模型的培训。 SciBERT是一个基于AllenNLP提出的科学论文预训练的BERT。根据SciBERT,它具有以下特征:

完全基于semanticscholar.org()的全文,而不仅仅是摘要,论文总数达到1.14M,文本符号达到3.1B的水平;

SciBERT有自己的词汇词汇,完全匹配训练语料库;

在目前所有科学领域的自然语言处理任务中,我们已达到最先进水平,我们可以看到如下图片;

最后,我们可以在Github上找到源代码和预训练模型供下载:

3.结论

因为BERT通过大量强大的特征提取器Transformer学习了大量的语言特征先验知识,这对于大多数自然语言处理任务非常有用。如果BERT就像一个人,那么它的读数就达到了我们一生中无法达到的数量。在某种程度上,BERT是博主。 BERT,查看更多