UFO中文网»UFO社区 › 地理生物 › 科学知识 › Informed Machine Learning | 知信机器学习：融合先验知 ...

收听	听众	主题

Informed Machine Learning | 知信机器学习：融合先验知识 ...

发表于 2023-2-22 11:37:16 | 查看: 313| 回复: 0

本文是对机器学习领域综述：Informed Machine Learning - A Taxonomy and Survey of Integrating Prior Knowledge into Learning Systems的翻译。
原文链接：https://ieeexplore.ieee.org/document/9429985
Abstract: 尽管机器学习取得了巨大的成功，但在处理不充分的训练数据时也有其局限性。一个潜在的解决方案是在训练过程中额外整合先验知识，这导致了知信机器学习的概念。在本文中，我们对该领域的各种方法进行了结构化的概述。我们提供了一个定义，并提出了一个知信机器学习的概念，说明了它的构件，并将其与传统的机器学习区分开来。我们引入了一个分类法，作为知信机器学习方法的分类框架。该框架考虑了知识的来源、它的表现形式以及它在机器学习架构中的整合。基于这个分类法，我们调查了相关的研究，并描述了如何在学习系统中使用不同的知识表示，如代数方程、逻辑规则或模拟结果。在我们的分类法的基础上对众多论文进行评估，发现了知信机器学习领域的关键方法。
Index Terms: Machine Learning, Prior Knowledge, Expert Knowledge, Informed, Hybrid, Neuro-Symbolic, Survey, Taxonomy

INTRODUCTION

机器学习在建立模式识别的模型方面取得了巨大的成功，这些领域包括计算机视觉、语音识别和文本理解以及游戏AI。除了这些经典领域，机器学习，特别是深度学习在工程和科学领域越来越重要。这些成功的案例都是基于数据的方法，从大量的例子中学习。
然而，在很多情况下，纯粹的数据驱动方法会达到其极限或导致不满意的结果。最明显的情况是，没有足够的数据来训练表现足够好或者泛化能力足够强的模型。另外，一个纯粹的数据驱动的模型可能不符合自然法则规定的限制，或无法通过监管、安全准则给出的限制，这对可信赖的人工智能很重要[8]。随着机器学习模型变得越来越复杂，人们对模型可解释性的需求也越来越大[9]。
这些问题导致人们越来越多地研究如何通过在学习过程中额外地纳入先验知识来改进机器学习模型。尽管将知识整合到机器学习中是很常见的，例如通过为数据做标记或特定的特征工程，我们观察到人们对整合更多的知识，特别是进一步的正式的知识表示的兴趣越来越大。例如，逻辑规则[10,11]或代数方程[12,13]已被添加为损失函数的约束条件。知识图谱可以通过实例之间的关系信息来增强神经网络[14]，这在图像分类中很有意义[15,16]。此外，物理模拟仿真也被用来丰富训练数据[17,18,19]。这些方法的异质性导致了一些术语的冗余；例如，我们发现了诸如物理信息深度学习[20]、物理引导的神经网络[12]或基于语义的正则化等术语[21]。最近研究活动的增长表明，数据和知识驱动的方法的结合在越来越多的领域变得相关。这一领域的研究论文数量和种类不断增加，促使人们进行系统的调查和综述。
最近的一项调查将其综合为理论指导下的数据科学的新范式，并指出了在机器学习中执行科学一致性的重要性[22]。甚至对于支持向量机来说，也存在一项关于将知识纳入这一形式主义的调查[23]。符号和连接主义人工智能的融合似乎越来越平易近人。在这方面，我们提到了最近的一项关于图神经网络的调查和一个被称为关系归纳偏见的研究方向[24]。我们的工作是对上述调查的补充，提供了一个被整合到机器学习中的知识表示的系统分类。我们基于对大量研究论文的调查，提供了一个结构化的概述，即如何将额外的、先验的知识集成到机器学习架构中。作为这类方法的总称，我们此后使用知信机器学习。
我们的贡献有三个方面。我们提出了一个关于知信机器学习的抽象概念，澄清了它的构件和与传统机器学习的关系。它指出，知信学习使用一个由数据和先验知识组成的混合信息源，其中，先验知识来自一个独立的来源，并由正式的表征给出。我们的主要贡献是引入了一个分类法，对知信机器学习方法进行了分类，这是一种新颖的分类法，也是第一种。它包含了知识源、其表现形式以及其与机器学习架构的整合等方面。我们特别强调了对各种知识表征的分类，因为这可能使从业者将他们的领域知识纳入机器学习过程。此外，我们还介绍了可用的方法，并解释了不同的知识表征，如代数方程、逻辑规则或模拟结果，如何用于知信机器学习。
我们的目标是让知信机器学习的潜在新用户掌握成熟和成功的方法。由于我们打算调查这一领域广泛的方法，我们不能描述所有的方法细节，我们也不声称已经涵盖了所有的研究论文。我们的目的是分析和描述方法的共同点和多样性，以确定知信机器学习的主要研究方向。
2. CONCEPT OF INFORMED MACHINE LEARNING
2.1 Knowledge
知识的意义在一般情况下很难定义，在哲学上是一个持续的辩论[25], [26], [27]。在知识的产生过程中，它首先作为有用的信息出现[28]，随后被验证。人们利用大脑内部的统计处理能力[29], [30]或通过咨询可信赖的权威人士来验证关于世界的信息。明确的验证形式是由经验性研究或科学实验给出的[27], [31]。
在此，我们假设从计算机科学的角度出发，将知识理解为关于某些背景下实体间关系的验证信息。关于其在机器学习中的使用，知识的一个重要方面是其形式化。形式化的程度取决于知识是否被写成文字，文字的结构如何，以及所使用的语言有多正式和严格（例如，自然语言与数学公式）。知识表现得越正式，它就越容易被整合到机器学习中。
2.2 Integrating Prior Knowledge into Machine Learning
除了机器学习架构中通常的信息源，即训练数据，我们还可以额外整合知识。如果这些知识是预先存在的，并且独立于学习算法，那么它可以被称为先验知识。此外，这种先验知识可以由正式的表征给出，它以一种外部的方式存在，与学习问题和通常的训练数据分开。明确地整合了这种知识表征的机器学习，此后将被称为知信机器学习。
定义：知信机器学习描述了从一个由数据和先验知识组成的混合信息源中学习。先验知识来自一个独立的来源，由正式的表征给出，并被明确地集成到机器学习架构中。
知信机器学习的概念描述了图1中的信息流，与传统机器学习不同。

Informed Machine Learning | 知信机器学习：融合先验知识 ...858 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...858 / 作者:温室小书生室d / 帖子ID:112666

Figure 1: Information Flow in Informed Machine Learning. 知信机器学习的架构需要一个有两个组成部分的混合信息源：数据和先验知识。在传统的机器学习中，知识被用于数据预处理和特征工程，但这个过程与学习架构深深地交织在一起（*）。相比之下，在知信机器学习中，先验知识来自独立的来源，由正式的表征（例如，由知识图谱、模拟结果或逻辑规则）给出，并被明确地整合。
2.2.1 Conventional Machine Learning
传统的机器学习从一个有训练数据的具体问题开始。这些数据被送入机器学习架构中，从而提供一个解决方案。问题通常可以被表述为回归任务，其中输入X必须被映射到输出Y。训练数据被生成或收集，然后由算法处理，这些算法试图接近未知的映射。这个架构包括四个主要部分，即训练数据（training data）、假设集（hypothesis set）、学习算法（learning algorithm）和最终假设（final hypothesis）[32]。
在传统的方法中，知识通常被用于学习架构，然而，它主要是用于训练数据的预处理（例如，打标记）或特征工程。这种整合涉及到整个学习架构，并与之深深地交织在一起，比如假设集的选择或学习算法的选择，如图1所描述。因此，这些知识并不是真正作为独立的来源或通过分离的表征来使用，而是在适应和需要时使用。
2.2.2 Informed Machine Learning
知信机器学习的信息流包括一个额外的先验知识整合，因此由两条源自问题的线路组成，如图1所示。这包括通常的训练数据和额外的先验知识。后者独立于学习任务而存在，可以以逻辑规则、模拟结果、知识图谱等形式提供。
知信机器学习的本质是将这些先验知识明确地整合到机器学习架构中，最好是通过知识表征所定义的明确接口。理论上，这适用于机器学习架构的四个组成部分中的每一个。
3. CLASSIFICATION OF APPROACHES
为了理解知信机器学习的概念是如何实现的，我们在广泛的文献调查基础上对现有的方法进行了系统的分类。我们的目标是发现不同的方法，确定它们的相似性或差异，并为用户和研究人员提供指导。在本节中，我们描述了我们的分类方法，并总结了我们的主要见解。
3.1 Methodology
我们的分类方法是由具体的分析问题决定的，我们在系统的文献调查中调查了这些问题。
3.1.1 Analysis Questions
我们的指导性问题是如何将先验知识整合到机器学习架构中。我们的答案将特别关注三个方面。由于知信机器学习中的先验知识由独立的来源组成，并且需要某种形式的显式表示，因此我们考虑知识来源和表示方式。由于在机器学习架构的哪个部分整合什么样的知识也是至关重要的，我们也会考虑整合方法。简而言之，我们的文献调查涉及以下三个问题。
1）来源（Source）
Which source of knowledge is integrated?
2）表示方式（Representation）
How is the knowledge represented?
3）整合方式（Integration）
Where in the learning pipeline is it integrated?
3.1.2 Literature Surveying Procedure
为了系统地回答上述分析问题，我们调查了大量描述知信机器学习方法的出版物。我们采用了一种比较和迭代的调查程序，由不同的周期组成。在第一个周期中，我们检查了最初的一组论文，并记录了每篇论文如何回答我们的问题。在这里，我们观察到特定的答案经常出现，从而产生了以分类学的形式设计一个分类框架的想法。在第二个周期中，我们检查了一系列的论文，并根据分类法的初稿对它们进行分类。然后，我们进一步完善了分类法，以配合文献的观察。在第三个周期中，我们重新检查并求助于论文，并进一步扩大了我们的论文集。这导致了一个广泛的文献基础，在这个基础上，所有的论文都根据提炼的分类法进行分类。
3.2 Key Insights
接下来，我们将对我们的系统性分类中的关键见解进行概述。作为预览，我们参考图2，它直观地总结了我们的发现。第4节和第5节将对我们的发现进行更详细的描述。

Informed Machine Learning | 知信机器学习：融合先验知识 ...780 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...780 / 作者:温室小书生室d / 帖子ID:112666

Figure 2: Taxonomy of Informed Machine Learning. 这个分类法作为一个知信机器学习的分类框架，并根据上述关于知识源、知识表示和知识整合的三个分析问题来构建方法。基于比较和反复的文献调查，我们为每个维度确定了一组元素，代表了不同方法的光谱。这些元素的大小反映了论文的相对数量。我们将分类法与桑基图结合起来，在桑基图中，连接三个维度的元素的路径说明了我们在分析的论文中发现的方法。路径越宽，我们发现该方法的论文就越多。主要的路径（至少有四篇或更多的论文在所有维度上都有相同的方法）以深灰色突出显示，代表了知信机器学习的核心方法。
3.2.1 Taxonomy
基于比较和反复的文献调查，我们确定了一个分类法，并提出作为知信机器学习方法的分类框架。在上述分析问题的指导下，该分类法由三个维度组成：知识来源、知识表示和知识整合。每个维度都包含一组元素，代表了文献中发现的不同方法的范围。这在图2的分类法中得到了说明。
在知识来源方面，我们发现有三大类。比较专业和正规的科学知识，日常生活中的世界知识，以及比较直观的专家知识。对于科学知识，我们发现了最有见地的机器学习论文。在知识表示方面，我们发现了多功能和精细化的方法，并提炼出了八个类别（代数方程、微分方程、模拟结果、空间不变性、逻辑规则、知识图、概率关系和人类反馈）。关于知识整合，我们发现了机器学习架构的所有阶段的方法，从训练数据和假设集，到学习算法，再到最终的假设。然而，大多数知信机器学习论文考虑了两个中心阶段。
根据不同的角度，分类法可以从两个方面中的任何一个来看待。面向应用的用户可能更喜欢从左到右阅读分类法，从一些给定的知识源开始，然后选择表示和整合。反之，面向方法的开发者或研究者可能更喜欢从右到左阅读分类法，从某个给定的整合方法开始。对于这两种观点，知识表示是重要的构件，构成了连接应用和方法的抽象界面。
3.2.2 Frequent Approaches
该分类法作为一个分类框架，使我们能够识别经常出现的机器学习的方法。在我们的文献调查中，我们将每篇研究论文按照三个分类法的每个维度进行分类。
通过分类学的路径（Paths through the Taxonomy）
当视觉上强调和连接它们时，分类法各维度上的特定条目组合就形象地形成了一条通过分类法的路径。这种路径代表了实现知情学习的具体方法，我们通过将分类法与桑基图结合起来来说明这一点，如图2所示。我们观察到，虽然通过分类法的各种路径都是可能的，但特定的路径出现的频率更高，我们将其称为主要路径。例如，我们经常观察到的方法是，科学知识用代数方程表示，然后被整合到学习算法中，例如损失函数。再比如，我们经常发现，世界知识如语言学是由逻辑规则表示的，然后被整合到假设集中，如网络结构。这些路径，尤其是主要路径，可以作为新入行的用户的指南，或者为研究人员提供一套基线方法。
从源头到表示的路径（Paths from Source to Representation）
我们发现，从源头到表征的路径形成了群体。也就是说，每个知识源都有普遍的表示类型。科学知识主要以代数或微分方程的形式表示，或以模拟结果的形式存在。虽然其他形式的表述也是可能的，但显然更倾向于方程或模拟，这可能是因为大多数科学旨在寻找用公式编码的自然规律。对于世界知识来说，逻辑规则、知识图谱或空间不变性等表示形式是主要的。这些可以被理解为一组符号表征。专家知识主要由概率关系或人类反馈来表示。这似乎是合理的，因为这样的表述允许非正式性以及一定程度的不确定性，这两点对于表述直觉可能都是有用的。我们还对学习任务的依赖性进行了额外的分析，发现如图3所示，以上描述的表征组得到了确认。

Informed Machine Learning | 知信机器学习：融合先验知识 ...27 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...27 / 作者:温室小书生室d / 帖子ID:112666

Figure 3: Knowledge Representations and Learning Tasks.
从理论的角度来看，表征之间的转换是可能的，而且在上述群体中确实经常出现。例如，方程可以转化为模拟结果，或者逻辑规则可以表示为知识图，反之亦然。然而，从实践的角度来看，区分不同形式的表征似乎是有用的，因为特定的表征可能已经在一个特定的设置中可用。
从表示到整合的路径（Paths from Representation to Integration）
对于大多数表征类型，我们发现至少有一条通往整合类型的主要路径。可以看到以下的映射关系。仿真结果经常被整合到训练数据中。知识图谱、空间不变量和逻辑规则经常被整合到假设集中。学习算法主要由代数或微分方程、逻辑规则、概率关系或人类反馈来加强。最后，最终的假说通常由知识图谱或模拟结果来检查。然而，由于我们观察到所有表示类型的各种可能的整合类型，整合似乎仍然是针对问题的。
因此，我们另外分析了文献中关于先验知识整合的目标，发现有四个主要目标。数据效率、准确性、可解释性或知识一致性。尽管根据统计学习理论，这些目标是相互关联的，甚至是部分等同的，但把它们作为所选方法的不同动机来研究是很有意思的。图4显示了不同整合类型的目标分布。我们观察到，主要的目标始终是为了实现更好的性能。将先验知识整合到训练数据中的做法非常突出，因为其主要目标是用更少的数据进行训练。整合到最终假设中也很特别，因为它主要用于确保安全和可信的人工智能的知识一致性。总而言之，这个分布图根据不同的目标提出了合适的整合方法。

Informed Machine Learning | 知信机器学习：融合先验知识 ...180 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...180 / 作者:温室小书生室d / 帖子ID:112666

Figure 4: Knowledge Integration and its Goals.
4. TAXONOMY
在本节中，我们描述了我们在文献调查中提炼出的知信机器学习分类法，作为分类框架。如图2所示，我们对知识源、知识表示和知识整合这三个分类维度中的每一个都描述了发现的元素。虽然下一节（第5节）将介绍根据该分类法进行的广泛的方法分类和进一步的具体例子，但我们在这里更多的是在概念层面上描述该分类法。
4.1 Knowledge Source
知识源这一类别指的是要在机器学习中整合的先验知识的来源。我们观察到，先验知识的来源可以是一个既定的知识领域，也可以是来自具有各自经验的个人群体的知识。
我们发现，先验知识往往源于科学，或者是一种世界或专家知识的形式，如图2左侧所示。这个列表既不完整也不交错，但旨在显示一个从较正式到较不正式，或从明确到隐含验证的知识谱系。尽管特定的知识可以被归入这些来源中的一个以上，但这种分类的目的是在我们的分类法中确定描述知识整合到机器学习中的常见方法的路径。在下文中，我们将简短地描述每个知识源。
科学知识（Scientific Knowledge）
我们将科学、技术、工程和数学等学科归入科学知识。这种知识通常是正规化的，并通过科学实验明确地加以验证。例如，物理学的普遍规律、遗传序列的生物分子描述，或材料形成的生产过程。
世界知识/常识（World Knowledge）
我们所说的世界知识是指日常生活中几乎人人皆知的事实，因此也可称为一般知识。它可以是正式的，也可以是非正式的。一般来说，它可以是直观的，由人类在他们周围的世界中推理出的隐性验证。因此，世界知识通常描述的是人类所感知的世界中出现的物体或概念的关系，例如，鸟有羽毛并能飞的事实。此外，通过世界知识，我们也将语言学纳入其中。这种知识也可以通过实证研究得到明确的验证。语言的语法和语义就是例子。
专家知识（Expert Knowledge）
我们认为专家知识是由一个特定的专家群体所掌握的知识。在专家群体中，它也可以被称为共同知识。这样的知识是相当非正式的，需要被正式化，例如，人机界面。它也是通过一群有经验的专家隐性验证的。在认知科学的背景下，这种专家知识也可以成为直觉[29]。例如，一个工程师或医生通过在特定领域工作的数年经验获得了知识。
4.2 Knowledge Representation
知识表示法描述了知识是如何被正式表示的。就图1中知信机器学习的信息流而言，它直接对应于我们的关键要素--先验知识。这个类别构成了我们分类法的核心构件，因为它决定了机器学习架构的潜在接口。
在我们的文献调查中，我们经常遇到某些表示类型，如图2的分类法中所列，并在表1中更具体地说明。我们的目标是提供一个知信机器学习方法的分类框架，包括使用的知识表示类型。虽然有些类型可以在数学上相互转化，但我们保留了与所查阅文献中最接近的表示方法。在此，我们对这些类型做一个初步的概念性概述。

Informed Machine Learning | 知信机器学习：融合先验知识 ...773 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...773 / 作者:温室小书生室d / 帖子ID:112666

Table 1: Illustrative Overview of Knowledge Representations in the Informed Machine Learning Taxonomy. 每种表示类型都有一个简单或突出的例子来说明，以便给人以初步的直观理解。
代数方程（Algebraic Equations. ）
代数方程将知识表示为由变量或常数组成的数学表达式之间的平等或不平等关系。方程可以用来描述一般函数或将变量约束在一个可行的集合中，因此有时也被称为代数约束。表1中突出的例子是质能等价的方程和不等式，说明在真空中没有东西能比光速快。
微分方程（Differential Equations.）
微分方程是代数方程的一个子集，它描述了函数和其空间或时间导数之间的关系。表1中两个著名的例子是热方程，它是一个偏微分方程（PDE），以及牛顿第二定律，它是一个常微分方程（ODE）。在这两种情况下，都存在一个（可能是空的）函数集，在给定的初始或边界条件下解决微分方程。微分方程往往是计算机数值模拟的基础。我们将微分方程和模拟结果的分类学类别区分开来，即前者代表一个紧凑的数学模型，而后者则代表展开的、基于数据的计算结果。
模拟结果（Simulation Results.）
仿真结果描述了计算机仿真的数值结果，它是对真实世界过程行为的近似模仿。仿真引擎通常使用数值方法求解一个数学模型，并针对特定情况的参数产生结果。它的数值结果就是我们在此描述的模拟结果，作为最终的知识表示。例如，模拟流体的流场或模拟交通场景的图片。
空间不变性（Spatial Invariances.）
空间不变性描述了在数学变换（如平移和旋转）下不改变的属性。如果一个几何对象在这种变换下是不变的，它就具有对称性（例如，一个旋转对称的三角形）。如果一个函数在其参数的对称变换下有相同的结果，那么它可以被称为不变性。与不变性相联系的是等价性的属性。
逻辑规则（Logic Rules.）
逻辑学提供了一种将有关事实和依赖关系的知识形式化的方法，并允许将普通语言语句（例如，IF A THEN B）转化为正式的逻辑规则（A B）。一般来说，逻辑规则由一组布尔表达式（A，B）和逻辑连接词（^，，...）组成。逻辑规则也可以被称为逻辑约束或逻辑句子。
知识图（Knowledge Graphs.）
图是一对（V，E），其中V是其顶点，E表示边。在知识图谱中，顶点（或节点）通常描述概念，而边则代表它们之间的（抽象）关系（如表1中的例子 &#34;人穿衬衫&#34;）。在一个普通的加权图中，边可以量化节点之间关系的强度和符号。
概率关系（Probabilistic Relations.）
概率关系的核心概念是一个随机变量X，可以根据基础概率分布P(X)从中抽取样本x。两个或多个随机变量X，Y可以是相互依赖的，具有联合分布（X，Y）&#34; P（X，Y）。先验知识可以是对随机变量的条件独立性或相关结构的假设，甚至是对联合概率分布的完整描述。
人类反馈（Human Feedback.）
人类反馈指的是通过用户和机器之间的直接界面转化知识的技术。输入模式的选择决定了信息传输的方式。典型的模式包括键盘、鼠标和触摸屏，其次是语音和计算机视觉，例如，用于运动捕捉的跟踪设备。理论上，知识也可以直接通过大脑信号传输，使用脑机接口。
4.3 Knowledge Integration
知识整合描述了知识被整合到机器学习架构中的位置。我们的文献调查显示，整合方法可以按照训练数据、假设集、学习算法和最终假设这四个部分进行结构化。尽管我们在第5节中对这些方法进行了更深入的介绍，但下面给出了第一个概念性概述。
训练数据（Training Data.）
将知识纳入机器学习的一个标准方式是将其体现在基础训练数据中。传统机器学习的经典方法是特征工程，即从专业知识中创建适当的特征，而根据我们的定义，知信的方法是使用原始数据集和额外的、独立的先验知识来源方面的混合信息。这种独立的先验知识来源允许积累信息，因此可以创建第二个数据集，然后与原始训练数据一起使用，或作为原始训练数据的补充。一个突出的方法是模拟辅助机器学习，其中训练数据是通过模拟结果来增加的。
假设集（Hypothesis Set.）
将知识纳入假设集是很常见的，例如，通过定义神经网络的架构和超参数。例如，卷积神经网络应用了关于图像中物体的位置和翻译不变性的知识。更广泛地说，知识可以通过选择模型结构来整合。一个值得注意的例子是网络结构的设计，它可以考虑到知识元素的映射，如逻辑规则的符号，到特定的神经元。
学习算法（Learning Algorithm.）
学习算法通常涉及一个损失函数，该函数可以根据额外的知识进行修改，例如通过设计一个适当的正则器。知信机器学习的一个典型方法是，以代数方程形式存在的先验知识，例如物理定律，通过额外的损失项被整合。
最终假设（Final Hypothesis.）
学习架构的输出，即最终的假设，可以对照现有知识进行基准测试或验证。例如，与已知约束条件不一致的预测可以被丢弃或标记为可疑，以便使结果与现有知识一致。
5 DESCRIPTION OF INTEGRATION APPROACHES
在本节中，我们将详细介绍我们在文献调查中发现的知信机器学习方法。我们将专注于方法，因此按照知识表征来组织我们的介绍。这样做的动机是假设类似的表征以类似的方式被整合到机器学习中，因为它们构成了整合的数学基础。此外，如第3.2.1节所述，这些表示法结合了面向应用和面向方法的观点。
对于每个知识表征，我们在一个单独的小节中描述知信机器学习方法，并提出观察到的（来自）知识源和观察到的（通往）知识整合的路径。我们从主要的路径实体开始，即我们在大多数论文中发现的实体，沿着其实体描述每个维度。
这一节提到了表2和表3，其中列出了根据我们的分类法排序的论文参考文献。
5.1 代数公式（Algebraic Equations）
我们在文献调查中发现，代数方程的主要路径来自科学知识，并进入学习算法，但也可能有其他的整合类型，如下图所示。

Informed Machine Learning | 知信机器学习：融合先验知识 ...952 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...952 / 作者:温室小书生室d / 帖子ID:112666

5.1.1 (Paths from) Knowledge Source
代数方程主要用于表示形式化的科学知识，但也可用于表达更直观的专家知识。
科学知识（Scientific Knowledg）
我们观察到，代数方程被用于自然科学和工程的各个领域的机器学习，特别是物理学[12]、[13]、[33]、[34]、[35]，也包括生物学[36]、[37]、机器人学[38]，或制造和生产过程[34]、[39]。
以下是三个有代表性的例子。物体的轨迹可以用运动学定律来描述，例如，下落物体的位置y可以描述为时间t的函数，即y(t) = y0 ` v0t ` at2。这种来自牛顿力学的知识可以用来改善视频中的物体检测和跟踪[13]。或者，两个变量的比例关系可以通过不等式约束来表达，例如，一个湖泊中两个不同深度d1 d2的水密度ρ必须服从ρpd1q ρpd2q，这可以用于水温预测[12]。此外，对于生产过程中关键性能指标的预测，控制参数（如电压、脉冲持续时间）和中间观测变量（如电流密度）之间的关系已知会影响结果，可以用从物理化学原理中得出的线性方程表示[34]。
专家知识（Expert Knowledge）
表示专家知识的一个例子是，根据专家的直觉定义变量的有效范围，作为近似约束[33]或单调性约束[39]。
5.1.2 (Paths to) Knowledge Integration
我们观察到，将基于方程的知识整合到机器学习中的一种常见方式是通过学习算法。整合到其他阶段也是可能的，我们在此按照出现的时间顺序描述这些方法。
学习算法（Learning Algorithm）
代数方程和不等式可以通过额外的损失项[12], [13], [33], [35]或者更普遍的，通过约束问题的表述[36], [37], [39]整合到学习算法中。
将代数方程作为基于知识的损失项整合到学习目标函数中，详见插入1。这些基于知识的条款衡量潜在的不一致，例如，物理规律[12]，[13]。这种扩展的损失通常被称为基于物理学的损失或混合损失，并促进从数据和先验知识中学习。除了测量与精确公式的不一致之外，与近似范围或一般单调性约束的不一致也可以通过整流的线性单元进行量化[33]。

Informed Machine Learning | 知信机器学习：融合先验知识 ...553 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...553 / 作者:温室小书生室d / 帖子ID:112666

作为进一步的方法，支持向量机可以通过将优化问题放宽为线性最小化问题来纳入知识，并以线性不等式的形式将约束条件加入其中[36]。同样，也可以放松某些基于核的近似方法背后的优化问题，以约束输入域中可能的非线性区域中的调节器或分类器的行为[37]。
假设集（Hypothesis Set.）
另一种方法是整合到假设集中。特别是，代数方程可以被转化为神经网络的结构[34], [38], [40]。一个想法是对预定义的操作进行排序，导致功能分解[40]。更具体地说，输入参数、中间观测变量或反映物理约束的输出变量之间的关系可以被编码为网络模型各层之间的线性连接[34], [38]。
最终假设（Final Hypothesis.）
另一条整合路径是将代数方程应用于最终假设，主要是作为与知识领域的给定约束条件的一致性检查。这可以实现为一种不一致度量，量化预测结果与给定知识的偏差，类似于上述基于知识的损失项。然后，它可以作为一个额外的性能指标用于模型比较[12]。这样的物理一致性检查也可以由描述特定特征的整个诊断函数集组成[41]。
训练数据（Training Data.）
将代数方程整合到机器学习中的另一种自然方式是使用它们来生成训练数据。虽然这一类的论文很多，但我们想强调的是，有一篇论文通过构建一个直接模拟物理特性和约束条件的特定特征向量，将先验知识作为独立的第二信息源进行整合[42]。
5.2 微分方程（Differential Equations）
接下来，我们描述了基于微分方程的知信机器学习方法，这些方法经常代表科学知识并被整合到假设集或学习算法中。

Informed Machine Learning | 知信机器学习：融合先验知识 ...732 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...732 / 作者:温室小书生室d / 帖子ID:112666

5.2.1 (Paths from) Knowledge Source
微分方程通过将状态变量与它们的变化率联系起来，对动态系统的行为进行建模。在这里讨论的文献中，微分方程代表了来自自然科学的知识。
科学知识（Scientific Knowledge.）
这里我们举三个突出的例子。[20], [43]中的工作考虑了Burger方程，该方程在流体力学中用来模拟简单的一维水流，在交通工程中用来描述交通密度行为。对流-扩散方程[44]在海洋学中被用来模拟海面温度的演变。在[20]中研究的薛定谔方程描述了量子力学现象，如波在光纤中的传播或玻色-爱因斯坦凝集物的行为。
5.2.2 (Paths to) Knowledge Integration
关于微分方程的整合，我们的调查特别注重于与神经网络模型的整合。
学习算法（Learning Algorithm.）
一个神经网络可以被训练成微分方程的近似解。为此，治理微分方程被整合到类似于方程1的损失函数中[45]。这需要评估网络相对于其输入的导数，例如，通过自动微分，这种方法最近被调整为深度学习[20]。这确保了神经网络输出的物理合理性。对生成模型的扩展也是可能的[43]。最后，概率模型也可以通过最小化模型条件密度和由微分方程和边界条件决定的玻尔兹曼分布之间的距离来训练[46]。
假设集（Hypothesis Set.）
在许多应用中，微分方程包含未知的随时间和空间变化的参数。神经网络可以对这种参数的行为进行建模，然后导致混合架构，其中某些组件的功能形式是通过（部分）解决微分方程而分析得出的[44], [47], [48]。在其他应用中，人们面临着从输入数据到数量的未知映射的问题，这些数量的动态受已知微分方程的支配，通常称为系统状态。这里，神经网络可以学习从观察数据到系统状态的映射[49]。这也导致了基于知识模块的混合架构，例如物理引擎的形式。
5.3 Simulation Results
仿真结果也是知信机器学习中一个突出的知识表示。它们主要来自于科学知识，并被用来扩展训练数据。
5.3.1 (Paths from) Knowledge Source
计算机模拟在科学的许多领域都有悠久的传统。虽然它们在其他领域也越来越受欢迎，但大多数关于将模拟结果整合到机器学习中的工作都涉及自然科学和工程。
科学知识（Scientific Knowledge.）
在流体力学和热力学[12]、材料科学[19]、[60]、[61]、生命科学[59]、机械学和机器人学[64]、[65]、[66]或自动驾驶[18]中都可以看到为机器学习提供信息的模拟结果。为了更具体地说明问题，我们举三个例子。在材料科学中，密度泛函理论的ab-initio模拟可以用来模拟潜在的新材料化合物的能量和稳定性以及它们的晶体结构[61]。甚至复杂的材料成型过程也可以被模拟，例如，复合纺织品的悬垂过程可以基于有限元模型进行模拟[19]。作为自动驾驶的一个例子，在特定天气和光照条件下的城市交通场景，可能对视觉感知组件的训练有用，可以用专门的物理引擎来模拟[18]。
5.3.2 (Paths to) Knowledge Integration
我们发现，将模拟结果整合到机器学习中，最常发生的是通过训练数据的增加。其他经常出现的方法是整合到假设集或最终假设中。

Informed Machine Learning | 知信机器学习：融合先验知识 ...819 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...819 / 作者:温室小书生室d / 帖子ID:112666

训练数据（Training Data.）
仿真结果与训练数据的结合[12], [18], [19], [59], [64], [65], [67]取决于如何将仿真的，即合成的数据与真实世界的测量相结合。
首先，额外的输入特征被模拟，并与真实数据一起形成输入特征。例如，原始特征可以通过多次近似模拟进行转换，模拟结果的相似性可以用来建立一个内核[59]。
其次，额外的目标变量被模拟并添加到真实数据中作为另一个特征。这样一来，模型不一定要学习预测目标，例如一个潜在的物理过程，而是要学习模拟和真实目标数据之间的系统差异[12]。
第三，额外的目标变量被模拟并作为合成标签使用，这在原始实验非常昂贵时特别有用[19]。这种方法也可以通过物理引擎来实现，例如，预先训练好的神经网络可以通过在模拟数据上的额外训练来适应某种应用[64]。从模拟中产生的合成训练数据也可用于预训练贝叶斯优化框架的组件[65]。
在知信机器学习中，训练数据因此源于混合信息源，并包含模拟和真实的数据点（见插文2）。合成领域和真实领域之间的差距可以通过对抗性网络（如Sim-GAN）来缩小。这些网络可以提高合成图像的真实性，并且可以通过模拟产生大量的注释数据集[67]。SPIGAN框架更进一步，使用来自模拟的内部数据结构的额外特权信息，以促进深度网络的无监督领域适应[18]。
假设集（Hypothesis Set.）
我们观察到的另一种方法是将仿真结果整合到假设集中[60], [68], [69]，这在处理低保真度的仿真时特别有意义。这些是简化的模拟，近似于系统的整体行为，但为了计算速度而忽略了复杂的细节。
当建立一个反映系统实际详细行为的机器学习模型时，低保真模拟结果或响应面（模拟结果的数据驱动模型）可以建立在基于知识的神经网络（KBANN[53]，见插入3）的架构中，例如，通过替换一个或多个神经元。这样，网络的一部分可以用来学习从低保真模拟结果到少数真实世界观察或高保真模拟的映射[60], [69]。
学习算法（Learning Algorithm.）
此外，模拟结果可以直接被整合到学习算法的迭代中。例如，物体在三维场景中的现实定位可以通过将来自实体模拟的反馈纳入学习来改善[66]。通过强化学习，如果模拟中没有梯度可用，这甚至是可行的。
最终假设（Final Hypothesis.）
我们在调查中发现的最后一种但很重要的方法是将模拟结果整合到机器学习模型的最终假设集中。具体来说，模拟可以验证训练过的模型的结果[19], [61], [66], [70]。
5.4 Spatial Invariances
接下来，我们描述了涉及空间不变性的知信机器学习方法。他们的主要路径来自世界知识，并进入假设集。
5.4.1 (Paths from) Knowledge Source
我们主要发现在世界知识或科学知识的背景下使用空间不变性的参考文献。
世界知识（World Knowledge.）
关不变性的知识可能属于世界知识的范畴，例如，在对图像中局部或全局像素相关性的事实进行建模时[73]。事实上，不变量经常被用于图像识别，其中许多特征在度量保值变换下是不变的。例如，在物体识别中，一个物体应该被正确分类，不受其在图像中的旋转影响。
科学知识（Scientific Knowledge.）
在物理学中，诺特定理指出，某些对称性（不变量）会导致保守量（第一积分），从而整合哈密尔顿系统或运动方程[52], [50]。例如，在模拟行星运动的方程中，角动量就是这样一个不变量。
5.4.2 (Paths to) Knowledge Integration
在大多数参考文献中，我们发现空间不变量为假设集提供了信息。
假设集（Hypothesis Set.）
来自物理规律的不变性可以被整合到神经网络的架构中。例如，不变张量基可以用来嵌入伽利略不变性，用于预测流体各向异性张量[50]，或者反映质量不变性的物理Minkowski度量可以通过洛伦兹层整合到神经网络中[51]。
最近的一个趋势是将作为空间不变性的知识整合到卷积神经网络的架构或布局中，这导致了所谓的几何深度学习[111]。CNN的一个自然概括是群组等值CNN（G-CNN）[71], [72], [75]。G-convolutions提供了更高程度的权重共享和表现力。简单地说，这个想法是基于更普遍的群论卷积来定义过滤器。另一种在图像识别中实现旋转不变性的方法考虑了谐波网络结构，其中解决了某种响应纠缠（由不同频率旋转的特征引起）[76]。其目的是通过用环形谐波取代传统的CNN滤波器，设计出对补丁式平移和旋转具有等效性的CNN。
在支持向量机中，通过构建适当的核函数，可以将分组变换下的不变性和关于局部性的先验知识纳入其中[73]。在这种情况下，局部不变性是以惩罚决策函数导数规范的正则器来定义的[23]。
训练数据（Training Data.）
将知识作为不变性整合到机器学习中的一个早期例子是创建虚拟例子[77]，并且已经表明通过虚拟例子进行的数据增强在数学上等同于通过正则器纳入先验知识。一个类似的方法是创建元特征[83]。
例如，在使用雷诺应力张量的湍流建模中，可以创建一个具有旋转、反射和伽利略不变性的特征[52]。这是通过选择满足旋转和伽利略对称性的特征和增强训练数据以确保反射不变性来实现的。
5.5 Logic Rules
逻辑规则对于将先验知识整合到机器学习中起着重要作用。在我们的文献调查中，我们主要发现了世界知识的来源以及进入假设集和学习算法的两条整合路径。
5.5.1 (Path from) Knowledge Source
逻辑规则可以将各种来源的知识形式化，但最常见的是世界知识。这里我们给出一些说明性的例子。
世界知识（World Knowledge.）
逻辑规则经常描述关于现实世界物体的知识[10]、[11]、[13]、[78]、[79]，如在图像中看到的。这可以集中在物体的属性上，比如对于动物x，（FLY(x) ^ LAYEGGS(x) BIRD(x)）。[10]. 它也可以关注物体之间的关系，如游戏场景中人物的共同出现，如（PEACH MARIO）[13]。
另一个可以用逻辑规则很好表示的知识领域是语言学[84], [85], [86], [91], [92], [112], [113]。语言学规则可以考虑一个句子的情感（例如，如果一个句子由两个用 &#34;但是 &#34;连接的子句组成，那么 &#34;但是 &#34;之后的子句的情感占主导地位[86]）；或者给定词序中标签的顺序（例如，如果给定文本元素是一个引文，那么它只能以作者或编辑字段开始[84]）。
规则也可以描述社会网络中的依赖关系。例如，在一个科学研究平台上，可以观察到作者之间的相互引用倾向于在同一个领域工作（Cite(x, y) ^ hasFieldA(x) hasFieldA(y)) [21].
5.5.2 (Path to) Knowledge Integration
我们观察到，逻辑规则被整合到学习中主要是在假设集，或者在学习算法中。
假设集（Hypothesis Set.）
融入假设集包括确定性的和概率性的方法。前者包括神经符号系统，它使用规则作为模型结构的基础[53], [54], [90]。在基于知识的人工神经网络(KBANNs)中，通过将命题规则的组件映射到网络组件，从符号规则中构建架构[53]，如插入3中进一步解释。有一些扩展，也可以输出修订的规则集[54]，或者也考虑一阶逻辑[90]。最近关于神经符号计算的调查[114]总结了进一步的方法。

Informed Machine Learning | 知信机器学习：融合先验知识 ...101 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...101 / 作者:温室小书生室d / 帖子ID:112666

以概率方式将逻辑规则纳入假设集是另一种方法[78], [79], [91], [92]。这些属于统计关系学习的研究方向[115]。相应的框架提供了一种逻辑模板语言来定义一组随机变量的概率分布。两个突出的框架是马尔科夫逻辑网络[78]，[91]和概率软逻辑[79]，[92]，它们将一组一阶逻辑规则转化为马尔科夫随机场。每条规则都规定了随机变量之间的依赖关系，并作为所谓的潜在函数的模板，它将概率质量分配给联合变量配置。
学习算法（Learning Algorithm.）
将逻辑规则整合到学习算法中通常是通过额外的语义损失项来完成的[10]、[11]、[13]、[21]、[84]、[85]、[86]。这些增加的目标函数类似于上面解释的基于知识的损失项。然而，对于逻辑规则，额外的损失项评估一个函数，将规则转化为连续和可微分的约束，例如通过t-norm[10]。语义损失函数也可以使用一套公理从第一原理中推导出来[11]。作为师生结构的一个具体方法，规则可以首先被整合到教师网络中，然后可以被学生网络使用，该网络通过最小化衡量教师网络模仿的语义损失项进行训练[85], [86]。
5.6 Knowledge Graphs
我们在文献调查中观察到的与知识表示有关的分类学路径在以下图形中说明。

Informed Machine Learning | 知信机器学习：融合先验知识 ...98 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...98 / 作者:温室小书生室d / 帖子ID:112666

5.6.1 (Paths from) Knowledge Source
由于图是非常通用的建模工具，它们可以表示各种类型的结构化知识。通常情况下，它们是由数据库构建的，然而，我们在知信机器学习论文中发现最频繁的来源是世界知识。
世界知识（World Knowledge.）
由于人类认为世界是由实体组成的，所以图经常被用来表示视觉实体之间的关系。例如，视觉基因组知识图是由人类对自然图像中物体属性和物体之间关系的注释建立的[15]，[16]。同样，麻省理工学院的ConceptNet[116]包含了日常生活中的概念以及从文本数据中自动构建的它们的关系。在自然语言处理中，知识图谱通常表示关于概念之间关系的知识，这些概念可以用词来指代。例如，WordNet[117]表示词的语义和词性关系，如同义词。这样的知识图谱常被用于自然语言处理中的信息提取，但信息提取也可用于构建新的知识图谱[118]。
科学知识（Scientific Knowledge.）
在物理学中，图可以立即描述物理系统，如弹簧耦合的质量[14]。在医学上，基因-蛋白质相互作用的网络描述了生物路径信息[55]，医疗诊断的层次性被国际疾病分类（ICD）等分类系统所捕捉[56]，[63]。
5.6.2 (Paths to) Knowledge Integration
在我们的调查中，我们观察到在机器学习架构的所有四个组成部分中都有知识图谱的整合，但在假设集中最为突出。
假设集（Hypothesis Set. ）
世界由相互关联的对象组成，这一事实可以通过改变假设集来整合。图神经网络在图上操作，因此在其架构中具有以对象和关系为中心的偏向[24]。最近的一项调查[24]对这一领域进行了概述，并明确地将这种知识整合命名为关系性归纳偏见。这种偏向是有好处的，例如，对于学习物理动力学[14], [62]或物体检测[16]。此外，图神经网络允许明确整合给定的知识图作为第二个信息源。这允许在自然图像中进行多标签分类，通过使用与图像中其他物体的关系来促进对特定物体的推理[15]（见插入4）。更为普遍的是，图推理层可以被插入到任何神经网络中[82]。其主要思想是通过传播给定的知识图谱来增强某个层中的表征。
另一种方法是在知识图谱上使用注意机制，以增强特征。在自然语言分析中，这有利于理解和生成对话文本[80]。同样，基于图的关注机制被用来通过使用更普遍的类别来抵消太少的数据点[63]。另外，对相关知识图谱嵌入的关注可以支持像ERNIE[87]这样的词嵌入的训练，这些词嵌入被送入像BERT[95]，[119]这样的语言模型。
训练数据（Training Data.）
另一个突出的方法是远距离监督，图中的信息被用来自动注释文本以训练自然语言处理系统。这最初是通过将图中与相关实体相匹配的每个句子视为训练样本来天真地完成的[81]；然而，最近基于注意力的网络被用来减少噪声训练样本的影响[120]。
学习算法（Learning Algorithm.）
各种工作都讨论了将图知识整合到学习算法中的问题。例如，基于图拉普拉斯矩阵的正则化项可以强制强连接的变量在模型中表现得相似，而不连接的变量可以自由地做出不同的贡献。这在生物信息学中通常被用来整合遗传途径信息[55], [56]。一些自然语言模型也将知识图谱的信息纳入学习算法，例如，在计算词嵌入时。在word2vec训练中[121]，可以利用单词之间的已知关系作为增强的语境[89]。
最终假设（Final Hypothesis.）
最后，图也可以用来改进或验证最终假设或训练的模型。例如，最近的一个发展是基于知识图谱的信息对词嵌入进行后处理[88], [93]。在物体检测中，学习系统的预测概率可以使用从知识图谱中得到的语义一致性措施[94]进行完善。在这两种情况下，知识图谱被用来表明预测是否与现有的知识一致。
5.7 Probabilistic Relations
在我们的文献调查中发现的最频繁的路径概率关系来自于专家知识，并进入假设集或学习算法。
5.7.1 (Paths from) Knowledge Source
概率关系形式的知识最突出地来源于领域专家，但也可以来自其他来源，如自然科学。
专家知识（Expert Knowledge.）
人类专家对一个领域有直观的知识，例如，哪些实体是相互关联的，哪些是独立的。然而，这样的关系知识往往没有被量化和验证，与自然科学知识等不同。相反，它涉及信仰或不确定性的程度。人类的专业知识存在于所有的领域。在汽车保险中，司机的特征如年龄与风险规避有关[96]。另一个例子是计算机故障诊断的专业知识，即把设备状态与观察结果联系起来[91]。
科学知识（Scientific Knowledge.）
相关性结构也可以从自然科学知识中获得。例如，基因之间的相关性可以从基因交互网络[122]或基因本体论[57]中获得。
5.7.2 (Paths to) Knowledge Integration
我们通常观察到将概率关系整合到假设集以及学习算法和最终假设中。
假设集（Hypothesis Set.）
专家知识是概率图形模型的基础。例如，贝叶斯网络结构通常由人类专家设计，因此属于告知假设集的范畴。在这里，我们重点关注知识和贝叶斯推理以更复杂的方式结合的贡献，例如，通过从知识和数据中学习网络结构。最近的一份综述[123]将有关网络结构的先验知识类型分为边缘的存在或不存在、边缘概率和有关节点顺序的知识。
概率性知识可以直接用于假设集。例如，可以在贝叶斯网络中加入额外的节点，从而改变假设集[97]，或者根据给定的时空结构选择概率模型的结构[124]。在其他混合方法，贝叶斯网络的条件分布参数要么从数据中学习，要么从知识中获得[74]，[101]。
学习算法（Learning Algorithm.）
人类知识也可用于定义信息性先验[101], [125]，它影响学习算法，因为它具有正则化效应。结构约束可以改变得分函数或条件独立性测试的选择策略，为网络结构的搜索提供信息[96]。更多的定性知识，例如观察一个变量会增加另一个变量的概率，使用等值回归法进行整合，即用顺序约束进行参数估计[103]。因果网络推理可以利用本体论来选择测试的干预措施[57]。此外，先验因果知识可用于约束贝叶斯网络中的链接方向[58]。
最后的假设（Final Hypothesis.）
最后，从贝叶斯网络获得的预测可以通过概率关系知识来判断，以完善模型[107]。
5.8 Human Feedback
最后，我们看一下属于人类反馈这一类型的知信机器学习方法。最常见的路径是从专家知识开始，在学习算法结束。
5.8.1 (Paths from) Knowledge Source
与我们分类法中的其他类别相比，通过人类反馈的知识表示不太正规，主要源于专家知识。
专家知识（Expert Knowledge.）
属于这一类别的知识的例子包括关于文本文件中的主题[98]、代理行为[99]、[100]、[104]、[105]以及数据模式和层次的知识[98]、[106]、[110]。知识通常以相关性或偏好反馈的形式提供，循环中的人类可以将他们的直觉知识整合到系统中，而不需要为他们的决定提供解释。例如，在物体识别中，用户可以通过画笔提供他们对物体边界的纠正性反馈[108]。另一个例子是，在游戏人工智能中，专家用户可以为Atari游戏中的代理提供口语化的指示[100]。
5.8.2 (Paths to) Knowledge Integration
人类对机器学习的反馈通常被认为仅限于特征工程和数据注释。然而，它也可以被整合到学习算法本身。这通常发生在强化学习或与视觉分析相结合的互动学习领域。
学习算法（Learning Algorithm.）
在强化学习中，一个代理观察一个未知的环境，并根据奖励信号来学习行动。TAMER框架[99]为代理人提供了人类的反馈，而不是（预定的）奖励。这样一来，代理从观察和人类知识中学习。虽然这些方法可以快速学习最优策略，但为每个行动获取人类的反馈是很麻烦的。人类对整个行动序列的偏好，即代理行为，可以规避这一点[104]。这使得奖励功能的学习成为可能。专家知识也可以通过自然语言界面纳入[100]。在这里，人类提供指令，代理人在完成这些指令后获得奖励。
主动学习提供了一种将 &#34;人类纳入循环 &#34;的方法，以最小的人类干预来有效地学习。这是以迭代策略为基础的，其中学习算法查询注释者的标签[126]。我们不认为这种标准的主动学习是一种知信学习方法，因为人类的知识基本上只用于生成标签。然而，最近的努力将进一步的知识整合到主动学习过程中。
视觉分析法结合了分析技术和交互式视觉界面，以实现对数据的探索和推理[127]。机器学习正越来越多地与视觉分析相结合。例如，视觉分析系统允许用户将类似的数据点拖近，以学习距离函数[106]，在物体识别中提供纠正性反馈[108]，甚至在解释不符合人类解释的情况下改变正确识别的实例[109]，[110]。
最后，存在各种用于文本分析的工具，特别是用于主题建模的工具[98]，用户可以创建、合并和细化主题或改变关键词权重。因此，它们通过生成新的参考矩阵（按主题的术语和按文档的主题矩阵）来传授知识，这些参考矩阵被整合到一个正则化术语中，该术语对新旧参考矩阵之间的差异进行惩罚。这与上述的语义损失项类似。
训练数据和假设集（Training Data and Hypothesis Set.）
将专家知识纳入强化学习的另一种方法是考虑人类对问题解决的示范。专家的示范可以用来预训练深度Q网络，从而加速学习[105]。在这里，先前的知识被整合到假设集和训练数据中，因为演示为Q网络的训练提供了信息，同时，允许通过模拟进行互动学习。
6 HISTORICAL BACKGROUND
将知识融入学习的想法由来已久。历史上，人工智能研究大致上考虑了符号主义和连接主义这两个相反的范式。前者一直主导到20世纪80年代，指的是基于符号知识的推理；后者在20世纪90年代变得更加流行，考虑使用神经网络进行数据驱动的决策。特别是明斯基[128]指出了符号人工智能的局限性，并促进了对数据驱动方法的更多关注，以允许因果和模糊推理。早在20世纪90年代，知识数据库与训练数据一起使用，以获得基于知识的人工神经网络[53]。在2000年，当支持向量机（SVM）成为分类的事实范式时，人们对将知识纳入这一形式主义感兴趣[23]。此外，在地球科学领域，最突出的是在天气预报领域，知识整合可以追溯到20世纪50年代。特别是数据同化的学科，涉及结合统计和机械模型的技术，以提高预测的准确性[129], [130]。
7 DISCUSSION OF CHALLENGES AND DIRECTIONS
表4总结了我们对机器学习的主要方法的发现。它给出了每种方法的分类路径、其主要动机、中心想法、方法的对潜在挑战的评论，以及我们对当前或未来方向的观点。关于这些方法本身和相应论文的进一步细节，我们参考第5节。在下文中，我们将讨论这些主要方法的挑战和方向，按照综合知识表示法进行分类。

Informed Machine Learning | 知信机器学习：融合先验知识 ...474 / 作者:温室小书生室d / 帖子ID:112666

Informed Machine Learning | 知信机器学习：融合先验知识 ...474 / 作者:温室小书生室d / 帖子ID:112666

代数方程形式的先验知识可以通过基于知识的损失项被整合为约束条件（例如，[12]，[13]，[35]）。在这里，我们看到了一个潜在的挑战，即从知识与数据标签中找到正确的监督权重。目前，这个问题是通过设置单个损失项的超参数来解决的[12]。然而，我们认为最近开发的学习算法的策略，如自监督学习[131]或小样本学习[132]，也可以推进来自先前知识的监督。此外，我们建议在统计学习理论[133], [134]的现有泛化边界以及正则化和有效假设空间[135]之间的联系的基础上进一步研究理论概念。
微分方程也可以进行类似的整合，但要特别关注物理学上的神经网络，通过基础微分方程来约束模型导数（例如，[20]，[45]，[46]）。一个潜在的挑战是解决方案的稳健性，这也是目前研究的主题。一种方法是通过对其不确定性的适当量化来研究模型质量[43], [46]。我们认为，与现有的数值求解器[136]进行更深入的比较也会有帮助。物理系统的另一个挑战是传感器数据的实时生成和整合。这一点目前是通过在线学习方法来解决的[48]。此外，我们认为来自数据同化的技术[130]也可以帮助结合来自知识和数据的建模。
仿真结果可用于合成数据的生成或增强（例如，[18], [19], [59]），但这可能带来真实数据和仿真数据不匹配的挑战。缩小差距的一个有希望的方向是领域适应，特别是对抗性训练[67]，[137]，或领域随机化[138]。此外，对于未来的工作，我们认为开发新的混合系统有进一步的潜力，该系统以更复杂的方式结合机器学习和模拟[139]。
通过具有不变特征的模型架构，如群组等值或卷积网络，利用空间不变性，减少了模型搜索空间（例如，[71]，[72]，[76]）。这里，一个潜在的挑战是适当的不变性规范和实施[76]或在更复杂的几何形状上的昂贵评估[111]。因此，我们认为基于不变性的模型有效地适应进一步的场景可以进一步改善基于几何的表示学习[111]。
逻辑规则可以在基于知识的神经网络（KBANNs）的架构中进行编码，（例如，[53]、[54]、[90]）。由于这个想法在神经网络只有几层的时候就已经提出来了，一个问题是，对于深度神经网络来说，这个想法是否仍然可行。为了提高实用性，我们建议开发知识整合的自动界面。未来的一个方向可能是开发新的神经符号系统。虽然将连接主义和符号系统结合成混合系统是一个长期的想法[140], [141]，但目前它正得到更多的关注[142], [143]。另一个挑战，特别是在统计关系学习（SRL）中，如马尔科夫逻辑网络或概率软逻辑（例如，[79]，[92]，[144]），是在规则尚未给定时的获取。为此，一个正在进行的研究课题是从数据中学习规则，这被称为结构学习[145]。
知识图谱可以通过图谱传播和关注机制明确地集成到学习系统中，或者通过具有关系归纳偏见的图谱神经网络隐含地集成到学习系统中（例如，[14], [15], [16]）。一个挑战是不同方法之间的可比性，因为作者经常使用像ConceptNet[80]或VisualGenome[15], [16]这样的模板，并定制图形以提高运行时间和性能。由于图的选择可能有很大的影响[82]，我们建议建立一个标准化的图库，以提高可比性，甚至建立基准。另一个有趣的方向是结合图的使用和图的学习。这里的一个要求是在KnowBERT[95]和ERNIE[87]等方法中需要良好的实体连接模型，以及新事实在图中的持续嵌入。
概率关系可以被整合为先验概率分布方面的先验知识，这些先验概率分布会随着额外的观察结果而被完善（例如，[74]，[97]，[101]）。主要的挑战是大量的计算工作和归纳先验知识的形式化。应对这一问题的方向是起源于优化理论和函数分析的变量方法[146]和变量神经网络[147]。除了缩放问题，对因果关系的明确处理在机器学习中变得越来越重要，并与图形概率模型密切相关[148]。
人类反馈可以通过人在回路（HITL）强化学习（例如，[99]，[104]）整合到学习算法中，或者通过互动学习与可视化分析相结合的解释排列（例如，[109]，[110]）。然而，由于在实际系统中的延迟，探索人类的反馈会非常昂贵。探索性的行动可能会妨碍用户体验[149], [150]，所以一般会避免在线强化学习。一个有希望的方法是从收集的日志中学习一个奖励估计器[151], [152]，然后为没有任何人类判断的未见过的实例提供无限的反馈。另一个挑战是，人类的反馈往往是直观的，没有正规化，因此很难纳入机器学习系统。由人类资助的评估是非常昂贵的，特别是与以功能为基础的评估相比[153]。因此，我们建议进一步研究表示法的转换，将直观的知识形式化，例如，从人类反馈到逻辑规则。此外，我们发现，改善可解释性仍然只是知识整合的一个小目标（见图4）。这也为未来的工作提供了机会。
即使这些方向是由特定的方法引起的，我们也认为它们具有普遍的相关性，并能推动整个知情机器学习领域的发展。
8 CONCLUSION
在本文中，我们提出了一个统一的分类框架，用于将额外的先验知识明确地整合到机器学习中，我们用知信机器学习这个总括术语来描述它。我们的主要贡献是开发了一个分类法，允许对各种方法进行结构化分类，并揭示主要路径。此外，我们还提出了一个关于知信机器学习的概念澄清，以及一个系统而全面的研究调查。这有助于知信机器学习的当前和未来用户确定正确的方法来使用他们的先验知识，例如，处理不充分的训练数据或使他们的模型更加强大。

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			注册会员