智能制造装备及系统
上QQ阅读APP看书,第一时间看更新

2.5 机器学习

2.5.1 机器学习的概念

人工智能是一种替代或辅助人进行决策的技术手段,主要指基于计算机的数据处理能力,模拟出人的某些思维过程或智能行为,使计算机或受其控制的机电系统在数据评价与决策过程中,表现出人的智能。目前,人工智能主要包含七大技术领域,即机器学习、知识图谱(语义知识库)、自然语言处理、计算机视觉(图像处理)、生物特征识别、人机交互、AR/VR(新型视听技术)等。[15]其中,机器学习是人工智能的核心技术和重要实现方式,是其他细分领域的底层机制。

机器学习是一门典型的交叉学科,涉及概率论、统计学、凸分析、逼近论、系统辨识、优化理论、计算机科学、算法复杂度理论和脑科学等诸多领域,主要指利用计算机模拟人类的学习行为,使其自主获取新的知识或掌握某种技能,并在实践训练中重组自己已有的知识结构,不断改善其工作性能。机器学习过程的本质是基于已知数据构建一个评价函数,其算法成立的基本原理在于数值和概念可以相互映射。

机器学习的基本实现方式可描述为:将具象的概念映射为数据,同目标事物的观测数据一起组成原始样本集,计算机根据某种规则对初始样本进行特征提取,形成特征样本集,经由预处理过程,将特征样本拆分为训练数据和测试数据,再调用合适的机器学习算法,拟合并测试评价函数,即可用之对未来的观测数据进行预测或评价。[16]该流程如图2-9所示。

图2-9 机器学习的基本流程

2.5.2 机器学习的主要实现方式

1.概述

为了模仿和再现人类的学习行为,学者们从生理学、心理学、概率论与统计学中寻找算法灵感,建立各种数学模型,形成诸多独特的知识库迭代机制。目前,机器学习算法比较丰富,整体上已形成多种分类形式,如图2-10所示。机器学习可以理解为计算机领域的仿生学,是一种技术理念,而具体的算法只是其实现方式,故本节先重点介绍各类算法的设计思路,之后对典型的机器学习算法做简要说明。

图2-10 机器学习的算法类别

(1)按照学习态度和灵感来源分类,可将机器学习分为符号主义、联结主义、进化主义、贝叶斯主义和类推主义等。[17]符号主义直接基于数据和概念的相互映射关系,利用数据的判断和操作,表征知识运用和逻辑推理过程,典型算法有决策树、随机森林算法(多层决策树)等。联结主义的灵感来源于大脑的生理学结构,设置多层次、多输入单输出、互相交错联结的处理单元,形成人工神经网络,演绎大脑的数据处理过程。进化主义认为学习的本质源于自然选择,通过某种机制不断地生成数据变化,并依照优化目标逐步筛选最优解,典型算法如遗传算法。贝叶斯主义基于概率论,利用样本估计总体,推算各类特征在特定样本数据下的出现概率,并依照最大概率对数据进行分类。类推主义关注数据间的相似性,根据设定的约束条件,依照相似程度建立分类器,对样本数量的要求相对较低,典型算法如支持向量机、kNN(k临近)算法等。

(2)按照学习模式和样本结构分类,可将机器学习分为监督学习、无监督学习、半监督学习和强化学习等。监督学习采用已标记的原始数据集,通过某种学习机制,实现对新数据的分类和预测(回归),输出模型的准确度直接由标记的精确度和样本的代表性所决定,决策树、人工神经网络和朴素贝叶斯算法等是当前理论较为成熟、应用十分广泛的算法模式。无监督学习针对无标记的原始数据集,自行挖掘数据特征的内在联系,实现相似数据的聚类,而无需定义聚类标准,省略了数据标记环节,主要用于数据挖掘、模式识别和图像处理等领域,典型算法如支持向量机和k-means(k均值)算法。半监督学习采用部分标识的原始数据集,依据已标识数据特征,对未标识数据做合理推断与混合训练,从而避免了数据资源的浪费,解决监督学习迁移能力不足和无监督学习模型不精确等问题[18],是当前机器学习的研究热点,但其抗干扰性和可靠性还有待改善。强化学习主要针对样本缺乏或对未知问题的探索过程,设定一个强化函数和奖励机制,由机器自主生成解决方案,并由强化函数评价方案质量,对高质量方案进行奖励,不断迭代直到强化函数值最大,从而实现机器依托自身经历自主学习的过程,尤其适合于工业机器人控制和无人驾驶等场合。

(3)按照学习方法和模型复杂度分类,可将机器学习分为传统机器学习和深度学习。针对原理推导困难、影响因素较多的高度非线性问题,如切削工艺和故障检测,传统机器学习建立起一种学习机制,基于样本构建预测函数或解决问题的框架,兼顾了学习结果的准确性和算法模型的可解释性。相对地,深度学习又称深度神经网络,构建三层以上的网络结构,抛弃了模型的可解释性,以重点保证学习结果的准确性,典型算法如卷积神经网络、循环神经网络和深度置信网络等。

(4)其他学习算法以改良、优化的方式,提升或补充上述算法的应用效果,其本身无法直接输出预测函数,常见算法包括迁移学习、主动学习、集成学习和演化学习等。迁移学习将已经获得的其他实例的学习模型,迁移到对新实例的学习过程中,指导学习迭代的方向,从而避免了原算法反复学习数据的底层规律,提高学习效率和模型泛化能力,如不同机器之间对同一类故障检测的学习过程。主动学习着眼于数据训练过程,根据当前学习情况,自动查询相关度最高的未标记数据,请求人工标记,以此提高训练效率和精度。集成学习对同一训练数据集进行多次抽样或以共用的形式,逐次调用基础学习算法,生成一系列预测函数,将各函数对新数据的评价结果进行比较或加权,获得最终结果,从而增强原学习算法的性能,典型算法如Boosting算法和Bagging算法[19]。演化学习与进化主义一致,通过模拟生物进化、演替的过程,构建启发式随机优化算法,将已知解不断地交叉重组或参数变异,产生新解并依据适者生存的原则进行筛选,经多代迭代后输出全局最优解。这个过程基本不会涉及目标问题复杂的内部机理,对优化条件和样本质量的限制极少,可一次产生多个最优解,并由用户依据实际情况选用。演化学习对多元优化问题的求解效率很高,其典型算法包括遗传算法、蚁群算法和粒子群算法等。

2.典型算法

1)人工神经网络基于工业大数据的人工神经网络是目前技术最成熟、应用最广泛的机器学习算法,其最基本的数据处理单元如经典的M-P神经元模型,如图2-11所示。将多段前向神经元传入的数据Xi进行加权与求和,若该值达到或超过某一阈值θ,则经由响应函数f生成输出信号,并向下传递。其中,权值ωi在训练迭代过程中实时更新。

图2-11 经典的M-P神经元模型

将多个神经单元并置,形成单层网络,每个神经元的输出值向下层所有神经元传递,进而形成多层网络结构。神经网络的层数和每层神经元的个数可由特定的拓扑优化算法或经验确定。实际应用的神经网络模型很多,如卷积神经网络、循环神经网络等,其主要差异表现在网络结构、运行方式和参数迭代算法等方面。

2)kNN(k临近)算法与k-means(k均值)算法kNN算法与k-means算法均利用特征值之间的距离表征样本间的不相似度。其中,kNN算法是监督学习中典型的聚类算法,其基本过程为:基于已分类的特征样本集,依次计算观测样本和每个训练样本的特征值距离,选择距离最小的前k个点并统计类别频数,取频数最大的类别作为预测分类。k值一般设置为不超过20的整数。k-means算法是无监督学习中典型的聚类算法。对于无标记的特征样本集,首先随机选择k个聚类中心,依次计算每个样本到k个聚类中心的距离值,并将该样本归于距离最近的聚类中心。在完成一次聚类后,拟合新的聚类中心并重新聚类,直到聚类中心收敛,从而自适应获得样本特征的分类机制。

2.5.3 机器学习在智能制造领域的应用

由机器学习构建的人工智能决策系统是“智能制造”体系中智能化的直接表现,可广泛应用于故障诊断、个性化定制、在线检测、预测性维护、科学排产、运营管理、制造工艺优化与机器人智能控制等诸多工业场合,实现科学决策与精准控制,为企业创造经济效益。

机器学习作为一种数据分析与特征挖掘的工具,可以有机融入到生产过程的专家系统中。目前的专家系统主要将业内专业人员的知识和经验,以及大量的实验数据编制成系统的知识库,通过建立优化模型,在给定的需求边界下,求取最佳的参数组合。机器学习可以为专家系统赋予智能,使其自主学习或改善相关技能,建立或改良优化模型,从而提升决策的正确性。在复杂环境下的工业信号处理与参数优化方面,通过采集故障机床的工作信号,整理为带标记的初始样本集,构建深度神经网络,挖掘该故障的信号特征,避免了繁杂的理论分析过程,为之后的智能故障诊断提供决策依据,例如,海尔公司利用机器学习,提取空调试制品的异常运转声音信号,追溯各生产装配环节,定位产生异常运转声音的工序并做针对性改进。机器学习也可以监测加工过程中刀具的磨损状态,例如,利用机器学习处理切削工艺实验的数据,建立切削力和切削变形的计算公式,避免了对复杂物化过程的量化描述,可以达到极高的预测精度,为工艺参数和补偿算法的制定提供基础。在运营管理方面,以华为的智能供应链路径优化为例,通过采用kNN算法对单批订单涉及的多个工厂进行聚类,使每个类别下工厂之间的距离最近,进而采用Dijkstra算法求解遍历单个类别下所有工厂的派车路径,从而大幅避免重复行车,使运输成本降低30%以上。