在食品安全管理领域,建立食品冷链物流跟踪与追溯体系,是生鲜食品安全的有效保障。目前,国内外学者就冷链物流管理展开了广泛的研究。国外学者结合欧美等发达国家冷链物流的发展现状,提出建立高度协调的一体化冷链物流体系,国内学者分析了我国冷链物流发展的特点,指出应完善冷链基础设施,整合冷链上下游各环节,从而实现冷链的协调控制[1,2,3,4,5,6]。然而冷链物流系统是一类典型的复杂的分布式系统,它需要各环节之间的高度配合、协调,而这正是传统冷链物流体系无法实现的,除此之外,各环节采集的大量监控数据没有得到有效利用,导致大量有价值的信息没有被发现[2,5]。
关联规则挖掘技术能够发现大量数据中项集之间有趣的关联或相关联系,是数据挖掘中的一个重要的课题,被业界广泛研究及应用。以往的研究学者在食品质量安全方面主要是从宏观或微观的角度建立质量安全指标体系,然后采用层析分析法、时间序列法等进行质量安全预警[8,9,10],主观性因素比较大,而本文则旨在充分利用肉类食品冷链物流监控数据,采用关联规则技术挖掘有价值的信息,建立模型,发现肉类食品冷链物流过程质量安全保障因素以及进行质量安全预警,这样发现的因素更贴合实际的肉类食品安全管理因素,预警效果更能反映实际情况。
挖掘肉类食品冷链物流订单流(如从工厂A到分销商B)与端到端的联系(如运输模式、产品类型、配送周期等)数据库中记录了每次配送的所有物流相关的数据,如图1所示:
整个冷链物流数据流包括产品信息(如产品类型、数量、重量等)和运行信息(如运输模式、业务事件时间、所处业务阶段、环境数据等)。通过关联规则和食品质量的限制条件就可以挖掘出某些内在联系,构建基于规则技术的肉类食品冷链物流质量安全保障因素以及质量安全预警总体模型,如图2所示:
图2 基于关联规则的肉类食品冷链物流质量安全保障因素发现及预警模型
该模型主要分为两步:
第一步:关联规则挖掘,发现质量安全保障因素,并确定权重。标准的关联规则由前置条件(如X)和结果(如Y)组成,表示如下:X->Y(X,Y包含于I,I是一个项目集),在我们的系统中,X就是案例的相关属性集合,比如产品数量、产品重量、产品类型、温度等,而Y就是质量安全保障属性;而是否是感兴趣的规则由支持度(前置条件和结果在知识库中同时发生的概率)和置信度(条件概率)决定。
支持度(X->Y)=所有包含X、Y案例的数目/总案例的数目
置信度(X->Y)=所有包含X、Y案例的数目/包含X案例的数目
通过关联规则挖掘算法得到质量保证属性的权重:
Wj=Max{置信度(a1->dj),置信度(a2->dj),置信度(a3->dj),…,置信度(am->dj)},即寻找最大关联规则的过程。比如:(0.95)产品类型->温度,(0.65)产品数量->温度,(0.70)产品重量->温度,那么温度的权重就是0.95。
第二步:质量安全预警。
整合第一步中发现的质量安全保障因素,对其各因素的权重标准化处理:Ni=Wi/(W1+…+Wj)。然后新将案例中各项相应的质量安全保障因素属性值归一化预处理,
在第一步寻找规则的过程中,采用的是Apriori算法,该算法是一种最有影响的挖掘布尔关联规则频繁项集的算法[7]。算法使用频繁项集性质的先验知识,首先找出频繁1-项集的集合,记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。
为了提高频繁项目集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:
(1)若X是频繁项集,则x的所有子集都是频繁项集。
(2)若x是非频繁项集,则X的所有超集都是非频繁项集。
Apriori核心算法分析
算法:Apriori算法,使用逐层迭代找出频繁项集。
输入:事务数据库D;最小支持度阈值min_sup。
输出:D中的频繁项集L。
算法描述:
首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,这时算法停止。在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1 的频集做一个(k-2)-连接来产生的。Ck中的项集是用来产生频集的候选集,最后的频集Lk必须是Ck的一个子集。
频繁1-项集可以是食品的温度、湿度、微生物含量以及冷链运输时间等。
通过关联规则技术,从大量的已经采集的质量安全信息挖掘出有价值的信息,比如某类产品安全运输的温度条件、湿度条件、微生物含量等,这样就能给管理者提供决策支持,从而间接实现对冷链质量安全的提前预防。
本文涉及的肉类食品冷链物流数据是来源于某肉类食品冷链物流追溯系统(CCQSM)的溯源数据库中的数据,包括了肉类食品冷链物流过程中运输、配送、仓储所产生的相关数据,抽取、清洗所需要的数据,得到产品从产地到达目的地所包含的部分数据记录,见表1。
表1 原始数据表
根据本文所建立的模型,挖掘感兴趣的规则,最后根据挖掘的规则进行整合寻找保证食品冷链物流质量安全的因素,并向食品冷链物流相关管理者提供质量安全保障的决策支持。具体操作如下:
根据表1,我们先将数据表中的某些字段值进行定性化。通过观察数据,将根据临界值进行定性处理,见表2。
表2 字段属性值离散化
根据表2,将表1 的数据处理后得到表3 所示的数据定性表:
然后,采用Weka软件连接My SQL数据库,直接获取数据库中的预处理数据,然后对产品重量、产品数量、平均温度、微生物含量、重金属含量、运输时间进行基于Apriori算法的多维关联规则挖掘,发现肉类食品冷链物流质量安全保障因素。取最小支持度=0.2,最小置信度=0.9,最大规则数=500,实验进行了16 轮的搜索,产生11 个频繁1 项集和184 条关联规则。选取置信度最大的部分关联规则,见表4。
那么满足条件的且可以作为此肉类食品冷链物流的质量安全保障因素只有温度、重金属含量、微生物含量和运输时间,而产品重量和产品数量作为规则的后件,其相关规则的置信度不满足条件,不包含在所发现的关联规则中。另外,通过查看整理国家食品药品监管总局公布的2015年第1-3期食品表3 数据定性表安全监督抽检结果,造成肉类食品出现质量安全问题的主要因素见表5。
这些因素与本文所发现的因素(微生物含量、重金属含量)相对应,说明本文采用关联规则技术来发现肉类食品冷链物流质量安全保障因素是可行的。这些因素中,重金属含量是不可逆的,如果超标,产品就需要被召回;运输时间会影响销售商或分销商对产品的满意度,时间的长短又与运输配送路径有关,如果运输配送过程中出现路径异常,延长了时间,除增加额外的成本外,还会使得其他因素出现异常,比如微生物的含量、温度异常等,进而增加食品变质的风险;微生物含量直接影响产品的品质,并且一般肉类产品的腐败变质都与微生物存在很大的关系;温度的波动影响微生物含量的变化,温控不当会使得食品的腐烂变质加快,间接影响着食品的品质。所以加强对这些内在因素的安全控制,可以使得肉类食品的质量安全得以保障。
根据前面模型步骤一所述,确定这些质量安全保障因素对应的权重,并将进行标准化处理,见表6。
表6 因素权重及标准化
从表6可以看出因素权重的大小,说明肉类产品质量安全各保障因素重要性程度,可以根据重要程度对食品的质量安全进行重点防控。
在进行上述分析后,确定了肉类食品冷链物流质量安全保障因素,以及它们相应的权重值,接下来进行食品的质量安全预警:
(1)归一化。由表2中的划分标准,将本文数据中的微生物含量、温度值按下式进行归一化处理:
时间因素、重金属含量的归一化处理:根据运输距离和以往的运输经验史,当产品在规定时间之内送达,则为0;超过规定时间,则为1。因为重金属含量是食品安全中重要因素之一,一旦超标,那么产品就需要处理掉或者召回[6],当其含量在标准范围内即不超过0.03,为0,超出标准范围即为异常状态为1。
(2)预警计算。当接收到新案例后,将案例中各因素的值进行归一化处理后,求质量安全预警值Y =∑inNipi。随机选取数据库中的5条原始数据,包含异常数据和正常数据,计算每条数据的质量安全预警值,结果见表7。
表7 风险预警结果
表7 中结果分为两种情况:如果预警值为0,说明未出现任何异常;若果预警值为大于0,说明出现异常,需要向相关人员进行预警,这样相关人员针对异常数据,通过案例检索CCQSM系统中的异常事件处理源案例库,为其决策提供支持,表8所示为异常处理源案例:
通过计算出该异常事件与案例库中所有事件的相似度[6],选择相似度最大的异常案例所对应的策略或者行为。例如当新案例出现异常:温度、微生物出现异常,根据检索相似度最大的异常事件所对应的策略,相关人员可以检查冷藏车制冷器,及时将温度调整到正常范围;运输时间超时,则通知车主,检测运输路径是否正确等。这样,一方面可以保障肉类食品冷链物流的质量安全,另一方面可以规范冷链物流操作,加强安全管理。
本文分析了冷链物流过程的数据流,提出基于关联规则技术的肉类食品冷链物流质量安全保障因素发现以及质量安全预警模型,该模型分为两步,第一步是关联规则挖掘,通过关联规则算法Apriori发现冷链质量安全保障因素,并确定权重;第二步质量安全预警,预警之后相关人员可以案例检索系统中的异常事件处理源案例库,寻找相似度最大的相似案例,为其决策提供支持。最后通过实证研究表明该模型能有效发现肉类食品冷链质量安全保障因素以及预警,给管理者提供决策支持,达到有效加强食品质量安全管理的目的。
【本文标签】
【责任编辑】平文云仓