2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

葡萄酒理化指标与质量的评鉴分析

摘要

用好的葡萄也许酿不出好酒,但没人能用劣质葡萄酿出好酒。巧妇难为无米之炊,再优秀的酿酒师,如果没有优质的葡萄,也很难酿出好酒。不同葡萄品种酿制出的葡萄酒是不同的,但是,除了品种间的差异,葡萄自身的质量是酿制高品质葡萄酒的关键。本文通过建立means

K-聚类模型、典型相关分析等模型,逐步探求用葡萄和葡萄酒的理化指标来评鉴葡萄酒质量的方法。

问题一要求我们分析附件1中两组评酒员的评价结果是否存在显著性差异,为此我们依据小概率原理建立模型Ⅰ-显著性检验模型。首先我们利用F检验求解两组评酒员之间是否存在显著性差异,再利用配对t检验对检验样本做再次检验,以提高研究效率,确保评价结果的准确性。利用Excel软件处理数据后,进行t、F的联合检验,当联合检验均被接受,得到两组评酒员的评价结果有显著性差异的结论。同时通过对两组品酒员对55种葡萄酒样品评分的稳定性、统一性分析,确定第二组品酒员的评价结果更可信。

针对问题二本文根据附件2提供的数据,利用模糊数学原理[3],建立模型Ⅲ

K-聚类模型,对酿酒葡萄进行分类,再以葡萄酒品尝评分作为质量评价依据,means

对酿酒葡萄进行分级。首先,考虑到酿酒葡萄的理化指标过多,不便分类,我们利用多元统计分析原理对红、白酿酒葡萄进行主成分分析,得出红、白酿酒葡萄分别有8个和11个主成分,从而大大减少了分类指标。再利用means

K-算法求出最佳聚类数k,建立means

K-聚类模型对各种葡萄样品在各个主成分上的得分进行聚类,将红、白葡萄样品分别划分为3类和4类。最后,根据每个类别中葡萄样品对应的葡萄酒的品尝评分,对各类酿酒葡萄进行分级。

针对问题三建立模型Ⅳ-典型相关分析模型,定量分析酿酒葡萄与葡萄酒的理化指标之间的联系。我们首先选取酿酒葡萄与葡萄酒皆含有的花色苷、单宁等成分作为理化指标,然后构建典型相关分析模型,研究酿酒葡萄与葡萄酒两组样品的理化指标之间的相关性。得出的结论是:红葡萄与红葡萄酒的理化指标有显著相关性,而因酿造工艺的不同,白葡萄与白葡萄酒的理化指标并无显著相关性。

针对问题四建立模型Ⅴ-多元回归模型。我们在模型Ⅳ给出的结论基础上,对酿酒葡萄的理化指标与葡萄酒理化指标之间的联系作进一步讨论。根据原始数据使用Excel作出红葡萄样品中芳香物的含量与红葡萄酒的芳香物含量的对比图,从图中可明显看出两者之间存在较强的相关性。由于酿造工艺的差异,白葡萄样品中芳香物的含量与白葡萄酒的芳香物含量没有明显的相关性。因此,我们仅以讨论葡萄酒的理化指标与葡萄酒质量的影响,利用最小二乘原理,建立多元回归分析模型,用MATLAB软件求解得到红葡萄酒的理化指标与红葡萄酒的质量的评价方程,由此得出能够用红葡萄酒的理化指标来评价红葡萄酒的质量。由于无法得出白葡萄和白葡萄酒理化指标对白葡萄酒质量的关系,故无法使用白葡萄和白葡萄酒理化指标来白葡萄酒的质量。

本文在问题二中选择影响葡萄酒质量的理化指标时方法具有一定的特点,采用主成分分析法与means

K-聚类方法相结合,以较少的综合指标代替较多的原有指标,既简化,又使计算结果具有可靠性。

关键词:葡萄酒;理化指标;典型相关分析;means

K-聚类分析;MATLAB

§1 问题的重述

一、背景知识

1.葡萄酒的发展历史

葡萄酒的酿造起源于公元前6000年古代的波斯,即现今的伊朗。对于葡萄的最早栽培,大约是在7000年前始于前苏联南高加索、中亚细亚、叙利亚、伊拉克等地区。后来随着古代战争、移民传到其它地区。初至埃及,后到希腊,传至法国等欧洲国家时,葡萄酒的发展达到了新的高峰。在被人誉称为浪漫之都的法国,葡萄酒被视为快乐的泉源,幸福的象征。

随着中国不断的对外开放,葡萄酒业也随之加快了发展的脚步。加入世界贸易组织,中国葡萄酒行业更是发生巨大变化:生产成本不断降低;全国性品牌减少;行业整流整合,强者愈强,弱者难以为继;生产优质低价的葡萄酒去占领国际市场成为发展的趋势。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图1 葡萄酒酿造国家分布图

2.葡萄酒的介绍

葡萄酒又称红酒,被视为幸福的象征。它是用新鲜的葡萄或葡萄汁经发酵酿成的酒精饮料。葡萄酒的品种很多,因葡萄的栽培、葡萄酒生产工艺条件的不同,产品风格各不相同,通常分红葡萄酒和白葡萄酒两种。前者是红葡萄带皮浸渍发酵而成,有多种的红,根据葡萄酒的年龄的不同,色泽浅到浅3红,深到深褐色;后者是葡萄汁发酵而成的,但白葡萄酒并非就是白色的,只是相对于红葡萄酒而言。色泽浅到浅黄,深到泛金黄,通常为柠檬色;取料是白葡萄或红(黑)葡萄或两者的混合。

3.葡萄酒的制作

按照国际葡萄酒组织的规定,葡萄酒只能是破碎或未破碎的新鲜葡萄果实或汁完全或部分酒精发酵后获得的饮料,其酒精度一般在8.5°到16.2°之间;按照我国最新的葡萄酒标准GB15037-2006规定,葡萄酒是以鲜葡萄或葡萄汁为原料,经全部或部分发酵酿制而成的,酒精度不低于7.0%的酒精饮品。因此不同质量的酿酒葡萄酿出的葡萄酒的质量不同,葡萄的品种、成产地区、所含化合物的比重都会在一定程度上使葡萄酒的质量受到影响。但同时,制作葡萄酒的工艺流程对葡萄酒质量的影响也是不可忽视的。发酵的时间、温度、所使用器皿等的不同制出的葡萄酒的品质差异也会很大。葡萄酒制作工艺流程如下图2。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图2 葡萄酒工艺流程图

二、原始数据

1.附件1:两组评酒员对葡萄酒的品尝评分表(含4个表格);

2.附件2:葡萄样品和葡萄酒样品的理化指标(含2个表格);

3.附件3:葡萄样品和葡萄酒样品的芳香物质(含4个表格)。

三、要解决的问题

现根据附件中提供的数据,要求建立数学模型以解决以下问题:

⑴问题一:建立相关模型分析附件1中两组评酒员的评价结果有无显著性差异,确定评价结果更可信的一组;

⑵问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级;

⑶问题三:定量分析酿酒葡萄与葡萄酒的理化指标之间的联系;

⑷问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

§2 问题的分析

一、相关知识的介绍

世界上最有影响力的葡萄酒评论家罗伯特·帕克。他创造的葡萄酒评分体系——100分制,葡萄酒的打分范围是50-100,基于以下四个主要因素:外观,香气,风味,总体质量或潜力。每瓶葡萄酒最低都能得到50分。具体级别划分为:分数范围96-100为极佳;分数范围90-95为优秀;分数范围80-89 为优良;分数范围70-79为一般;分数范围60-69为低于一般;分数范围50-59为次品。如今这种葡萄酒质量的评分标准是国际公认的最权威评分标准,对全世界优质葡萄酒的价格和需求有非常大的影响。

二、对问题的总分析

在2012年5月25日~27日举行的2012中国国际名酒展览会上,展会最大亮点就是中国引入了世界葡萄酒行业公认的鉴酒专家罗伯特?帕克的评分标准。国内引入帕克评分标准,将对消费者起到一个权威的指导作用,将有助拨开以往红酒消费迷雾。真正走上理性消费的道路,形成新的葡萄酒消费文化。

葡萄酒的质量即葡萄酒优秀的程度,它是产品的一种特性,且决定购买者的可接受性。从消费的角度来看,葡萄酒的质量更多地是通过品尝评分的高低来体现。同时,另一层面上,葡萄酒作为葡萄的发酵产品,它的质量又取决于原料的质量、所采用的加工

工艺及相应的陈酿技术等因素。

为分析酿酒葡萄和葡萄酒之间的相互影响关系,本文将通过建立典型相关分析模型检验葡萄中理化指标、葡萄酒中理化指标之间的关联度,进而利用多元线性回归方法,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,最后,利用帕克的评分体系检测葡萄酒质量理化指标评定方法的可行性。

三、对问题的具体分析

1.对问题一的分析

问题一要求我们分析本题附件1中两组评酒员的评价结果有无显著性差异,判断两组葡萄酒品尝打分更可信、真实。对于分析显著性差异,我们需要进行显著性检验,利用数理统计的方法来评价一个分析方法的可靠性达到了什么样的水平。而实验这种水平精密度准确度,则是通过t、F检验——它们同时以小概率事件原理为出发点,通过其固有程序仅为达到统计检验的目的。最后对评价结果的可信度可以做出定性的判断。

2.对问题二的分析

问题二要求我们根据酿酒葡萄的理化指标、葡萄酒的质量对所给葡萄样品进行分级。而对于酿酒葡萄的分级,是依据葡萄质量的好坏程度影响葡萄酒质量的好坏程度进行品质高低的分级的。我们可以根据本文所给葡萄各项指标数据先对酿酒葡萄进行分类,进而根据质量综合评分对酿酒葡萄进行分级。在对酿酒葡萄分类时,我们可以建立K 聚类算法模型,对酿酒葡萄建立合理的分类体系,在此过程中利用主成分分means

析法对酿酒葡萄指标数据进行处理;然后,利用文中将葡萄样品的品尝综合得分作为葡萄酒质量评价标准的依据,根据得分的高低顺序对各类酿酒葡萄进行分级划分。

3.对问题三的分析

问题三要求我们分析酿酒葡萄与葡萄酒的理化指标之间的联系。鉴于红葡萄与红葡萄酒的制作与白葡萄与白葡萄酒制作的不同,我们将红葡萄与白葡萄与其所酿的葡萄酒分别分析其理化指标的关系。首先,选取酿酒葡萄与葡萄酒合理的理化指标,然后构建典型方差分析模型,以酿酒葡萄的理化指标与葡萄酒的理化指标作为两组变量,从整体上分析酿酒葡萄与葡萄酒的理化指标之间的关系

4.对问题四的分析

要论证能否用葡萄和葡萄酒的的理化指标来评价葡萄酒的质量,必须分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。我们可以根据问题三的结论,分析葡萄酒与葡萄样品中的理化指标的相关性。其次,我们通过建立多元线性回归模型,判定葡萄酒的理化指标对葡萄酒质量的影响。根据回归系数的大小确定葡萄酒中的理化指标对于葡萄酒质量的影响

§3 模型的假设

1.所有葡萄样品的生长环境相同;

2.葡萄酒制作工艺环境一样;

3.20位品酒员随机分到两组,且每位品酒员的评分公平公正;

4.品酒员可信度不受客观因素影响;

5.每位品酒员经验丰富,判别能力准确;

6.所给样品红葡萄酒或白葡萄酒的制作工艺一致。

§4 名词解释与符号说明

一、名词解释

1.理化指标:指物质或产品的物理性质、物理性能、化学成分、化学性质、化学性能等技术指标,也是产品的质量指标。它是对照国家标准要求,按照标准检测方法检测的。

2.葡萄酒的理化指标:总酸、挥发酸、酒精度、干浸出物、总浸出物、残糖、单宁、色度、色调、总酚、总

SO、明胶、盐酸、PH、固形物等等。

2

3.花色苷:是花色素与糖以糖苷键结合而成的一类化合物,广泛存在于植物的花、果实、茎、叶和根器官的细胞液中,使其呈现由红、紫红到兰等不同颜色。

4.单宁:是英文(Tannins)的译名,是葡萄酒中所含有的二种酚化合物其中的一种物质,尤其在红葡萄酒中含量较多,有益于心脏血管疾病的预防。

二、符号说明

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

§5 模型的建立与求解

一、问题一的分析与求解

模型Ⅰ显著性检验模型

1.问题的分析

在问题一中,我们需要对本题附件1中两组评酒员的评价结果进行数据分析,根据分析结果判断有无显著性差异。而分析显著性差异,则需要显著性检验,利用数理统计的方法来评价一个分析方法的可靠性达到了什么样的水平。作为一种成熟的分析方法,人们对它的精密度、准确度好坏的期望值总是越来越高,而衡量这精密度,准确度好坏的标准则是通过t 、F 检验[1]——它们同时以小概率事件的原理为出发点,通过其固有的程序达到统计检验的目的。我们可以利用F 检验来求解两组评酒员之间是否存在显著性差异,然后利用配对t 检验对检验样本做再次检验,以提高研究效率。

对于两组品酒员评分的可信度, 2.模型的准备

t 、F

两种检验法从各自不同的角度对两组或两组以上的数据间有无显著性差异进

行检验推断,t 检验常用于比较两组数据的分布情况,这种比较可以在两种方法之间展开;F 检验则是通过计算两组数据的方差之比检验它们在精密度上的差异是否显著,亦即检验它们的分析条件是否处在稳定的状态。然而,在实际工作中,常常出现t ,F 检验在同一问题,同一置信水平下,两种检验的检验判断不一致,故针对此种情况,本文在进行显著性检验时,同时进行t ,F 的联合检验,只有当联合检验一同被接受之后,所作出的结论才是完整的和可以信赖的。 3.模型的建立与求解 1)数据的处理

首先利用附件1的数据,求出两组中各品酒员分别对每一酒样的综合得分,再求每一组对某一酒样的平均分。详见附录表1 酒样评价总分表。经SPSS 软件对数据进行正态分布检验,基本所有数据通过正态分布检验。 2)F 检验

(1)先建立无效假设,两组品酒员对酒样评分的标准差无差异性,即210:S S H =,备择假设,211:S S H ≠。同时确定显著性水平05.0=α。

(2)先求出两组数据的s (标准偏差),再求得方差2S ,把方差大的记为2

大S ,方差小的记为2

小S

(3)按下列数学公式求出统计量:

2

2小

大计算S S F =

利用EXCEL 软件,得到F 检验的结果,见表1:

F

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

对于05.0=α置信水平,查F 检验的临界值表知9.1=临界F ,则根据F 检验结果

临界

红临界白F F F F >>,,说明第一组,第二组对白葡萄酒,红葡萄酒的品尝评分具有显著

性差异。 3)配对t 检验

配对t 检验又称成对t 检验。是将对子差数d 看作变量,先假设两种处理的效应相同,

,021=-μμ即对子差值的总体均值0=d μ,

再检验样本差数的均值d 与0之间差别有无显著性,推断两种处理因素的效应有无差别或某种处理因素有无作用。由于此设计使影响结果的非被试因素相似或相同,因而提高了研究效率。

(1)先建立无效假设,两组品酒员对酒样评分的标准差无差异性,即210:S S H =,备择假设,211:S S H ≠。同时确定显著性水平05.0=α,

(2)先求出两组数据的s (标准偏差),再求得方差2S ,把方差大的记为2

大S ,方差小的记为2

小S

(3)按下列数学公式求出统计量:

d

d

d

s d s d t =

-=

μ

1

)(2

2

2

--=

∑∑n n d d s d

n

d

d ∑=

n s s d

d =

式中d 为各个对子值的差数,d 为差数的平均数,d s 为差数的标准差,d s 为差数的标准误,n 为对子数。

利用EXCEL 软件,求出t 检验的结果,见表2:

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

对于05.0=α置信水平,05.004.0<=白p ,05.002.0<=红p ,故接受原假设,认为第一组、第二组对白葡萄酒、红葡萄酒的品尝评分具有显著性差异。

综上,由F 检验与t 检验结果可知,均认为第一组,第二组对白葡萄酒,红葡萄酒的品尝评分具有显著性差异,因此,我们最后认为附件1中两组评酒员的评价结果有显著性差异。 模型Ⅱ 可信度模型

⑴模型的建立与求解

我们通过对品酒员水平的评价来确定两组品酒员的可信度。

一般来说,由于品酒员对葡萄酒的评价常常根据其自身喜好有所不同,但是不同的品酒员对某一种葡萄酒的评价又有一定联系。对同一种葡萄酒,不同品酒员的打分可能不完全相同,但分数应在一个范围内波动,所有分数有一定离散性,又有联系。而对品酒员打分的评价没有任何固定公式来计算,所以评价的方式是比较离散的。但是离散的评价方式又得有联系,并能综合评价品酒员水平的好坏。评价某品酒员水平的方法多种多样,有离散性的分析统计、波动性的分析、统一性的分析等。

1、对于数据离散性的分析,由分数偏差来表达)(ij ij n n -,而偏差正负的个数可以反映该品酒员给分偏高还是偏低。然后通过最大分数和最小分数的统计可以辅助评价某品酒员给分的偏差。

2、对波动性的分析,由方差∑-=

2

2)

(1

ij ij

i n n n

s 来达某品酒员给分的稳定性。

3、统一性(联系): 在上述两个分析结果后,如果出现不能比较的情况,就对某几位大致相当的选手进行继续分析。因为各个品酒员的分数不应该相差太大。所以用平均偏差和的大小来衡量某品酒员与整体的统一性。

偏差率:%

100?-=

n

n n p ij ij

平均偏差率:∑

==

n

j ij ij p n

p 1

1

⑵模型的建立与求解

1.分析波动性(稳定性):对于品酒员打分的稳定性来说,方差是一个可以评定的方式。使用Excel 来统计品酒员打分的方差如表3。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

为更直观地观看两组评酒员对红葡萄酒的品尝总评分方差大小关系,我们利用Excel做出对应评分方差的折线图,见图3。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图3 红葡萄总评分方差图

为更直观地观看两组评酒员对白葡萄酒的品尝总评分方差大小关系,我们利用Excel做出对应评分方差的折线图,见图4。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图4 白葡萄总评分方差图

稳定性分析:如方差图所示,第二组对白葡萄酒品尝总评分方差<第一组对白葡萄酒品尝总评分方差,第二组对红葡萄酒品尝总评分方差<第一组对红葡萄酒品尝总评分方差,显然第二组评分的稳定性明显高于第一组,即第二组品酒员给葡萄酒打分的波动

性较小,具有一定的可靠性。

2.偏差性分析,即一致性分析:使用Excel来统计品酒员打分的平均偏差率如表4。

白葡萄酒样品号第一组第二组红葡萄酒样品号第一组第二组

1 178.2244 -7.4E-17 1 -5E-17 8.26E-17

2 -3.9E-17 3.89E-17 2 3.61E-17 0

3 3.4E-17 7.63E-17 3 -7.1E-17 7.6E-17

4 -7.5E-17 -7.4E-17 4 8.47E-17 -3.6E-17

5 4.16E-18 -1.4E-18 5 3.82E-17 7.7E-17

6 -8.3E-1

7 -1.4E-1

8 6 -3.6E-17 4.34E-17

7 2.08E-18 -3.7E-17 7 -5.6E-18 4.54E-17

8 -8.3E-17 3.89E-17 8 3.96E-17 0

9 -8E-17 -7.4E-17 9 6.94E-19 -3.6E-17

10 4.23E-17 3.89E-17 10 -4E-17 4.16E-17

11 4.41E-17 -8.3E-17 11 8.6E-17 -2.3E-17

12 3.47E-17 -7.8E-17 12 2.78E-17 4.02E-17

13 -8.4E-17 -7.6E-17 13 7.49E-17 4.23E-17

14 -6.9E-19 7.36E-17 14 0 7.96E-17

15 -7.5E-17 -7.2E-17 15 -3.9E-17 -4.6E-17

16 8.33E-18 4.23E-17 16 -7.7E-17 -8.3E-17

17 2.78E-17 3.47E-17 17 3.68E-17 0

18 7.77E-17 -3.6E-17 18 1.94E-17 -8.5E-17

19 -3.9E-17 -7.4E-17 19 7.25E-17 8.22E-17

20 3.54E-17 7.88E-17 20 7.32E-17 3.75E-17

21 -7.1E-17 -3.6E-17 21 7.63E-17 -3.9E-17

22 -2.8E-18 -7.4E-17 22 -3.7E-17 7.91E-17

23 -7.3E-17 -7.4E-17 23 6.8E-17 7.42E-17

24 4.16E-17 7.63E-17 24 2.78E-18 -3.5E-19

25 7.49E-17 2.78E-18 25 -4.2E-17 -4.2E-17

26 3.61E-17 3.89E-17 26 3.61E-17 2.08E-18

27 5E-17 -1E-18 27 0 -1.4E-18

28 3.89E-17 7.22E-17

由表4显而易见,第二组的平均偏差率<第一组的平均偏差率,说明第二组品酒员的打分更具有统一性。

综上,第二组品酒员的评分可信度更高。

二、问题二的分析与求解

模型Ⅲmeans

K 聚类模型

1.对问题的分析

问题二要求我们根据酿酒葡萄的理化指标、葡萄酒的质量对所给葡萄样品进行分级。而对于酿酒葡萄的分级,则需要根据本文所给葡萄各项理化指标数据对酿酒葡萄进行分类。然而酿酒葡萄各项理化指标多达30项,会影响酿酒葡萄分类的精度。我们采用主成分分析的方法,将我们手中许多相关性很高的葡萄的理化指标转化成彼此相互独立或不相关的变量。选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分。并计算各品种葡萄在各个主成分上的得分。建立means

K-聚类算法模型,对每种葡萄样品在各个主成分上的得分进行聚类,从而实现对酿酒葡萄的分类。然后,利用文中将葡萄样品的品尝评分作为葡萄酒质量评价标准的依据,根据每一类葡萄对应葡萄酒的品尝评分,计算出这一类葡萄的平均质量得分,从而根据得分的高低顺序实现对葡萄种类的分级。

2.模型的准备

⑴影响葡萄品质的主要成分的确定

主成分分析[4]能将许多相关的随机变量压缩成少量的综合指标,同时又能反映原来较多因素的信息。按照主成分分析的理论,若前R个主成分的累积贡献率达到了85%的原则,则这R个主成分能反映足够的信息。研究对27个红葡萄样品和28个白葡萄样品的30个指标进行主成分分析,从累积贡献率分析并简化评价葡萄品质的主要指标。

利用MATLAB软件编程(求解程序见附录。。。)分别对27个红葡萄样品和28个白葡萄样品的30个指标数据进行主成分的特征根、贡献率计算,结果见表5、表6:

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

析中主成分的累积贡献率达到了85%的原则,即利用前8个样品足以反映我们想要得到的信息,故选前8个特征值。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

中的累计贡献率需要达到的85%,故白葡萄样品中选前11个特征值,使得主成分能够较全面的反映出果实品质的主要信息。

通过主成分分析,分别计算出每种葡萄样品在各个主成分的得分(见附录 ),再根据下面的means K -聚类,通过对每种葡萄样品在各主成分的得分进行聚类,实现对酿酒葡萄的分类。 ⑵模型的理论准备

K -均值聚类(K-means clustering)是Mac Queen 提出的一种非监督实时聚类算法,

在最小化误差函数的基础上将数据划分为预定的类数k 。该算法原理简单并便于处理大量数据。

在means K -算法运行前必须先指定聚类数目k 和迭代次数或收敛条件,并指定k 个初始聚类中心,根据一定的相似性度量准则,将每一条基因分配到最近或“相似”的聚类中心,形成类,然后以每一类的平均矢量作为这一类的聚类中心,重新分配,反复迭代直到类收敛或达到最大的迭代次数。

首先定量计算两个可比较元素间的相异度,对象间的相似度和相异度是基于两个对象间的距离来计算的。

标量也就是无方向意义的数字,也叫标度变量。现在先考虑元素的所有特征属性都是标量的情况。例如,计算{}102,1,2=X 和{}2,3,1=Y 的相异度。一种很自然的想法是用两者的欧几里得距离来作为相异度,欧几里得距离的定义如下:

2

222211)

()()(),(n n y x y x y x Y X d -++-+-=

其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。将上面两个示例数据代入公式,可得两者的欧氏距离为:

025

.100)2102()31()12(),(2

2

2

=-+-+-=

Y X d

除欧氏距离外,常用作度量标量相异度的还有曼哈顿距离和闵可夫斯基距离,两者定义如下:

曼哈顿距离:

n

n y x y x y x Y X d -++-+-= 2211),(

闵可夫斯基距离:

p

p

n

n p

p

y x y x y x Y X d -++-+-=

2

21

1),(

上面这样计算相异度的方式有一点问题,就是取值范围大的属性对距离的影响高于取值范围小的属性。这样不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间,这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:

)

min()max()min(i i i i i a a a a a --=

'

其中)max(i a 和)min(i a 表示所有元素项中第i 个属性的最大值和最小值。

K 均值算法是基于质心的技术,k 均值算法以k 为输入参数,把n 个对象集合分为k

个簇,使得簇内的相似度高,簇间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看作簇的质心。

K 均值算法的处理流程如下,首先,随机的选择k 个对象,每个对象代表一个簇的

初始均值,对剩余的每个对象,根据其与各个簇均值的距离。将它指派到最相似的簇。然后计算每个簇的新均值,这个过程不断的重复,直到准则函数收敛。通常采用平方误差准则:

2

1)(∑∑

=∈-=

k

j c x j

i c j

i Z

X m J

这里)(m J c 是数据库中所有对象的平方误差的总和,i x 是空间中的点,表示给定的数据对象,j z 是簇j c 的平均值(i x 和j z 都是多维的)。 3模型的建立及求解

⑴模型的建立

我们将27种红葡萄样品和28种白葡萄样品分别30项理化指标进行聚类。

设定元素集合D ,其中共有30个元素,每个元素有27/28个观察属性。首先对D 进行规格化处理。然后进行以下步骤:

①从D 中随机取k 个元素,作为k 个簇的各自的中心。

②分别计算剩下的元素到k 个簇中心的相异度,将这些元素分别划归到相异度最低的簇。

③根据聚类结果,重新计算k 个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。

④将D 中全部元素按照新的中心重新聚类。 ⑤重复第④步,直到聚类结果不再变化。 ⑥将结果输出。 ⑵模型的求解

由于葡萄种类存在较大的差异,使用means K -算法时,首先计算k 的取值。(图5)假定红葡萄样品的最佳聚类数为1k ,白葡萄样品的最佳聚类数为2k ,依据模糊数学原理,利用MATLAB 软件作出两种葡萄样品的最佳聚类数图,见图5

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图5 1k 、2k 值确定图

根据图5,得出红葡萄样品的最佳聚类数31=k 、白葡萄样品的最佳聚类数42=k 。即将27种红葡萄样品划分为3类、将28种白葡萄样品划分为4类为最佳。

依据已确定的最佳聚类数,利用MATLAB 软件编程求解(求解程序见附录四),得出红、白葡萄的具体分类,分类结果见表7、表8:

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

文中提到将葡萄样品的品尝评分作为葡萄酒质量的评价标准。我们以此依据,根据已分类葡萄样本对应葡萄酒的品尝评分,计算出每一类葡萄的平均质量得分,进而根据得分的高低顺序对葡萄种类做出分级,红葡萄分为三级,白葡萄可分为四级,具体等级划分见表9。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

由表9,我们可看出红葡萄被划分为三个等级。第一等级红葡萄质量最好,共11个葡萄样品,包括样品1、2、3、8、9、12、17、18、24、25、26,所酿出的葡萄酒品尝等分为70.982;第二等级红葡萄质量次之,共有15各个葡萄样本,分别为样品4、5、6、7、10、11、13、14、15、19、20、21、22、23、27,所酿出的葡萄酒品尝等分为70.213;葡萄样品16为第三等级,所酿出的葡萄酒品尝得分最低为69.9。白葡萄被划分为四个等级。第一等级包括样品1、23两种白葡萄;第二等级为包括样品5、9、11、19、27等5种白葡萄;划为第三等级的白葡萄有样品2、3、4、6、10、12、13、18、20、25、26、28;第四等级的白葡萄共9种,即样品7、8、14、15、16、17、21、22、24。

4.结论

70±的分值范围内,白根据表9内容得出,对应的红葡萄酒品尝评分基本上落在1

70±的分值范围内。根据国际通用分级标准,本题的红、葡萄酒品尝评分基本上落在0.5

白葡萄酒样本均处于70-79的分值范围内,属于一般葡萄酒,故制作该级葡萄酒所使用的葡萄样本也属于一般种类的葡萄品种。

同时,我们可以看出红、白葡萄对应葡萄酒的等级划分评分相近,葡萄酒得分并未有拉开明显的分值差距,也正体现在了近阶段中国葡萄酒行业的发展现状。近几年,葡萄酒业在中国逐渐发展起来,但对于中国的绝大多数消费者而言,一般等级的葡萄酒是现行消费的主流。

三、问题三的分析与求解

模型Ⅳ 典型相关分析模型 1.问题的分析

问题三要求我们分析酿酒葡萄与葡萄酒的理化指标之间的联系。我们知道葡萄酒是酿酒葡萄经过酒精发酵,冷冻过滤等一系列过程酿成,因此,酿酒葡萄与葡萄酒之间有一定的相关关系,好的酿酒葡萄能够酿造更好的葡萄酒。虽然利用相关分析法,可以对酿酒葡萄与葡萄酒的理化指标之间的关系进行分析,但相关分析是点对点的分析,只能给出具体的葡萄某一指标和葡萄酒某一指标之间线性关系的大小,不能从总体上说明酿酒葡萄与葡萄酒的理化指标之间的关系。典型相关分析由Hotelling 1936年提出,是研究两组变量之间相关关系的一种统计分析方法,它能够真正反映两组变量之间的相互线性依赖关系。本文尝试应用典型相关分析法对酿酒葡萄与葡萄酒的理化指标之间的关系进行分析。 2.模型的准备

典型相关分析是研究两组变量之间相关关系的一种多元统计方法。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。受主成分分析的启发,对每组变量分别构造线性组合,将两组变量之间的相关性转化为两个变量之间的相关性进行研究.典型相关分析示意图如图6 所示。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图6 典型相关分析示意图

典型相关分析首先在每组变量中找出变量的线性组合,使其具有最大相关性;然后再在每组变量中找出第二对线性组合,使其与第一对线性组合不相关,而第二对本身具有最大相关性;如此继续下去,直到两组变量之间的相关性被提取完毕为止;这些综合变量被称为典型变量(canonical variates );第I 对典型变量间的相关系数则被称为第I 典型相关系数(一般来说,只需提取1~2对典型变量即可较为充分的概括样本信息)。 3.模型的建立与求解

1.总体典型变量的定义

设两组分别为q 与p 维)

(q p ≤的变量Y X ,: T

T

Y Y Y Y X X X X )

,,(),,(q 21p 21,, ==

设q p +维随机向量???? ??=Y X Z 协方差阵???

?

??

=∑

∑∑22

21

1211,其中∑

11

是X 的协方差

阵,∑

22

是Y 的协方差阵,21

12

=

T 是Y X ,的协方差阵。

典型相关分析用X 和Y 的线性组合Y b V X a U T T ==,之间的相关来研究X 和Y 之间的相关性。其目的就是希望找到向量a 和b ,使),(V U ρ最大,从而找到替代原始变量的典型变量U 和V 。

典型相关系数的数学定义为:

=

=

b

a

b a

b

a

V Var U Var V U Cov V U T

T

T

22

11

12

)

()(),(),(ρ

由于随机变量乘以常数不改变其相关系数,为防止不必要的结果重复出现,最好在其中附加如下的约束条件:

1

)(1

)(22

11

====∑∑b b V Var a a

U Var T

T

记,,1

12111121122121122112111∑∑∑∑∑∑∑∑--------==B A 则有,,2

2

b Bb a Aa

λλ==

其中2λ既是A 又是B 的特征根,a 和b 就是对应于A 和B 的特征向量。 2.数据的收集与处理

由于红葡萄与红葡萄酒,白葡萄与白葡萄酒之间的理化指标有很大区别,我们分别分析红葡萄与红葡萄酒,白葡萄与白葡萄酒之间的理化指标之间的关系。

选取葡萄样本为纵向量,以葡萄与葡萄酒作为两组变量,其中葡萄的理化指标为:花色苷, 单宁, 总酚, 葡萄总黄酮, 白藜芦醇, DPPH 自由基以及反映色泽的L* , a*(+红;-绿), b*(+黄;-蓝),而葡萄酒的理化指标为:花色苷,单宁, 总酚, 酒总黄酮, 白藜芦醇, DPPH 半抑制体积以及反映色泽的 L*(D65), a*(D65), b*(D65)。(注:白葡萄酒中不含有花色苷)。

将所有数据以Excel 表格形式录入,再以0.13SPSS 软件进行统计计算和分析,结果和解释如下:

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

表12输出的是红葡萄与红葡萄酒的理化指标之间的相关系数,从二者直接相关系数看,花色苷, 单宁, 总酚, 葡萄总黄酮, DPPH自由基,酒总黄酮, DPPH半抑制体积之间关联程度较大,而白藜芦醇以及反映色泽的L* , a*(+红;-绿), b*(+黄;-蓝)在红葡萄与红葡萄酒理化指标中的直接关联度不大,更多的可能是综合影响。

由于变量间的交互作用,因此,这个简单相关系数矩阵只能作为参考,不能真正反映两组变量间的实质联系。

表13 典型相关系数

1 2 3 4 5 6 7 8 9

0.994 0.926 0.869 0.791 0.628 0.599 0.331 0.295 0.021

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

由表13知第一典型相关系数为0.994,第二典型相关系数为0.926,它们均比酿酒葡萄的指标和葡萄酒的指标两组间的任一个相关系数大,即综合的典型相关分析效果要好于简单相关分析。由表14知:在α=0.05的情况下,第一与第二典型相关系数是显著的。

采用典型相关变量标准化的系数来建立典型相关模型:

红葡萄理化指标的第一典型变量模型为:

9

8

7

65

4

3

2

1

t

0.368

-

0.325t

+

0.577t

-

0.029t

+

0.383t -

0.318t

-

0.084t

-

0.825t

+

-1.069t

=

U1

花色苷)1

(t和单宁)2

(t两个变量的典型权重最重大,说明花色苷和单宁最能够反映红葡萄的理化指标。

红葡萄酒理化指标的第一典型变量模型为:

9

8

7

6

5

4

3

2

110.014y

0.024y 0.032y 4.675y

0.11y

-0.127y

-0.198y

0.024y

--0.003y

+++++=V

DPPH 半抑制体积)6(y 的典型权重最大,说明DPPH 半抑制体积最能够反映红葡萄的理化指标。

红葡萄理化指标的第二典型变量模型为:

0.07x9

0.04x8-0.325x70.577x6- 0.029x50.383x4-0.318x3-0.084x2-0.825x12+++=U

红葡萄酒理化指标的第二典型变量模型为:

0.344y9

0.193y8-0.613y70.375y6- 0.272y50.059y41.285y3-0.014y2-1.603y12++++=V

在对二对典型变量中,在红葡萄理化指标中葡萄的花色苷)1(x 和葡萄的DPPH 自由基)6(x 的典型权重较大, 在红葡萄酒理化指标中葡萄酒的花色苷)1(y ,总酚)3(y ,L*(D65))7(y 的典型权重较大,说明红葡萄与红葡萄酒的理化指标有显著地相关性。

利用相同的原理,我们对白葡萄和白葡萄酒的理化指标进行典型相关分析,由

0.13SPSS 软件[2]

求解结果如下所示:

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

由表15 知,在显著性水平05.0=α的情况下,sig 值均大于显著性水平α,则无法

原假设,故白葡萄与白葡萄酒的理化指标的所有典型相关系数均不显著。

白葡萄与白葡萄酒的理化指标之间并无显著的相关关系,同样的理化指标,红葡萄与白葡萄酿成的葡萄酒,他们之间的关系出现不一样的结果,原因归结于红葡萄酒与白葡萄酒的制作过程不同,红葡萄酒在除梗破碎后,直接带着果肉发酵,而白葡萄酒则是除梗破碎后,果肉分离发酵。酿成的白葡萄酒与红葡萄酒已有了很大的不同。而这也从侧面反映出花色苷, 单宁, 总酚, 葡萄总黄酮, DPPH 自由基,酒总黄酮, DPPH 半抑制体在红葡萄中的含量对所酿的葡萄酒有着显著的相关关系。 四、问题三的分析与求解 模型Ⅴ 多元线性回归模型 1.问题的分析

问题四要求我们分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的的理化指标来评价葡萄酒的质量。首先,我们根据问题三的结论可以得出,红葡萄酒与红葡萄样品中的相关成分具有较强的相关性,白葡萄酒由于酿造工艺的不同,其主要成分含量与对应的葡萄样品中成分相关性较弱。其次,我们通过建立多元线性回归模型,判定葡萄酒的理化指标对葡萄酒质量的影响。根据回归系数的大小

确定葡萄酒中的理化指标对于葡萄酒质量的影响。 2.模型的准备

⑴影响葡萄酒质量成分的确定

在问题三中,我们得出红葡萄酒理化指标与红葡萄样品的理化指标具有较强的相关性,葡萄样品的主要理化指标都在葡萄酒中得以体现。因此,我们仅以研究红葡萄酒的理化指标与红葡萄酒质量的关系。

在此之前,我们利用附件3中的数据,将葡萄样品与葡萄酒样品中所含的芳香物累积求和,得到芳香物总含量。利用Excle 作图比较葡萄酒样品中芳香物含量与葡萄样品中芳香物含量。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图7 红葡萄样品与红葡萄酒芳香物质含量对比

根据图 可以看出红葡萄样品中第12、13、21号样品在芳香物的含量上有较大差异,从其余样本可以看出,红葡萄样品与红葡萄酒样品芳香物含量较为一致,从而红葡萄样品中的芳香物得以在葡萄酒样品中得以体现。

2012年全国大学生数学建模竞赛A题(葡萄酒理化指标与质量的评鉴分析,获全国二等奖)

图8 红葡萄样品与红葡萄酒芳香物质含量对比

根据图 可以看出白葡萄样品中在芳香物的含量上与白葡萄酒有较大差异,这也进一步说明了由于白葡萄酒酿酒工艺的问题,导致芳香物含量的巨大差异,由此,白葡萄样品中的芳香物无法与白葡萄酒样品中的芳香物建立联系。

⑵模型的理论准备

在许多实际问题中,我们经常从定量的角度去研究某些变量间的关系。通常,变量间的关系有两大类:一类变量间有完全确定的关系,可以用函数形式来表示;另一类变量间有一定的关系,但无法用精确的函数形式表示出来,变量间的这种关系在统计上称为相关关系。回归分析便是研究变量间相关关系的一种统计方法。在回归分析中,把变量分成应变量(y )和自变量(n x x x 21,)两类,通过对统计数据的分析,确定y 与

n x x x 21,之间的关系表达式。当影响因变量y

的自变量有多个时,我们的分析便是多

相关推荐
相关主题
热门推荐