数学建模竞赛成绩的评定
摘要
本文主要对该校的数学建模的101组的评分结果进行分析,来确定复评名单。首先我们对题目中的数据进行统计分析,找出各位老师的评分的规律,并给出符合该规律的线性回归的函数。问题一中,我们拟合出三个线性回归的函数,分别求出缺失的三个数据,甲老师缺失的数据位72,乙老师为84,丙老师为77。问题二中由于老师人数较少合理利用所有老师的意见,我们先通过平均分由大到小排序,在模型的改进中又通过加权平均分由大到小排序,发现结果相差不大。问题三中,我们认为老师的打分宽松和严格主要的标准是平均分的多少,其次方差也能在一定程度上体现老师的宽松程度,我们通过两者的结合来决定老师评分的宽松程度,结果显示老师的宽松程度为(按严格到不严格排列)为:甲→丁→乙→戊→丙。问题四,通过模拟全国大赛的方式,我们一般选前百分之十的组进行复评,我们通过对平均分八十五以上的组按一分为间距,分成五组,各组内的排名由方差决定。方差越大代表其稳定性不高,所以方差越大排名越后,然后取前十参加复评。至此,题得到较为合理的解答。
关键字:数学建模评分回归方程平均值加权平均值方差分析最终复评组
一问题重述
某校一年一度的大学生数学建模竞赛共有101分小组参赛,该校成立了五位老师进行成绩评定,每位老师分别独立地为每个小组的论文进行打分,但是由于某些原因表中缺少了三个数据。我们需要建立一个数学模型,根据该模型解决以下四个问题。(附表1是2012年101个参赛队的成绩单,其中“*”表示因为某种原因而造成了成绩缺失)。、
(1) 补齐表中缺失的数据;
(2) 对这101个参赛队进行排名;
(3) 建立模型对5位老师进行分类,评价5位老师中哪位老师打分比较严格,哪位老师打分比较宽松;
(4) 怎么样选取一些参赛团队进行复评?
二问题分析
问题一:通过多元线性回归方程,利用matlab编程实现各个老师评分的关系,然后通过四个数据得出剩下的一个数据。
问题二:该问题我们假设每位老师的评价能力是一样的,也就是每位老师的权重都是一样的,均为1/5。又由于老师人数较少且合理利用所有老师的意见,所以算出五位老师评分的总和,然后取平均值,按照平均值由大到小的顺序进行排名。
问题三:该问题需要我们对五位老师进行分类,评价五位老师中哪位老师打分比较严格,哪位老师打分比较宽松。
在这里,各位老师打分的均值可以作为衡量老师打分严格程度的一个重要标准。并且对于不同的参赛队,打分严格的老师对优劣比较分明,于是打出的分数也会波动比较大;反之,打分宽松的老师打出的分数波动较小。
分数的波动大小可以通过制作分数区间图,然后观察高、低分数段的人数,如果高、低分数段的人数都多则打分严格,否则打分较宽松。但考虑这样做的误差比较大,所以又采取计算其样本方差。(方差越大,波动程度越大)。
故先比较均值,分数均值小的老师打分比较严格,分数均值大的老师打分比较宽松。在均值相同时,则比较方差,方差大的老师打分比较严格,方差小的老师打分比较宽松。
问题四:我们通过第一问得出的补充数据和第二问算出的每队平均分,筛选出平均分80分以上的参赛队,并且再计算每个参赛队队方差。
一般省内总队数的9%会获得全国奖项,所以我们选取总数的10%(10队)
进行复评。平均分数是作为评选的主要参考,另外在一定的分数区间内(以一分为分数区间),我们通过考虑其方差的大小决定它们的优秀程度,在同一个分数区间内,方差越小越优秀。通过以上规则我们评选出参加复评的参赛队。
三 模型的假设
1,每位老师在给每篇参赛论文打分过程中,评价的能力相差不大。 2,比赛过程是公平的,老师不会对某些队有“特殊照顾”。
3,老师之间对论文的打分存在某种线性关系,即知四名老师的打分可以根据线性函数估计出第五位老师的打分情况。
4,老师打分不会因为个人喜爱而出现较大的差别
四 符号说明
ij X :代表第j 位老师对第i 个参赛队的打分(其中j=1,2,3,4,5分别对应甲老师、乙老师、丙老师、丁老师、戊老师);
i X :代表第i 个参赛队的平均值;
j X :代表第j 位老师打分的平均值; i DX :代表第i 个参赛队所得分数的方差;
j DX :代表第j 位老师所打分数的方差;
0ω:代表五位老师对101个参赛队所打分的平均值向量; 1ω:代表五位老师对101个参赛队所打分权重向量;
五 模型的建立与求解
5.1问题一
1,线性回归模型
根据附件一得数据结果以1X 作为因变量,以2345,,,X X X X 为自变量,建立函数,利用matlab 软件编程以及已知的90组数据(从98组数据剔除一些不合理的数据)求解出12345,,,,a a a a a ,然后根据第九组数据算出1x 的数据(取整数)。 建立的模型为1122334455X a a X a X a X a X =++++。 2,模型的求解
经过matlab 编程,分别求出12345,,,,a a a a a 分别为61.9495,-0.0206,0.0919,-0.0878,0.2174(见附录)然后求得均方根误差rmse=4.3603说数据拟合效果显著,代入
求得老师甲对第九组打的分数为72.4494.同理,分别以乙,丙老师为因变量,其他老师为自变量可求得专家乙对25组的评分为83.7651,专家丙对58组的评分为77.1569.
5.2问题二
5.2.1模型的建立
i X 表示每个队的得分平均值,得到公式如下:
∑==5
1
51j ij i X X ,i=1,2,L,101;j=1,2,L,5
5.2.2模型的求解
(1)使用函数∑==5
1
51j ij i X X ;
5.2.3模型的改进
考虑到每位专家的评分标准、方式不同,所以我们选择先根据所有数据算出各个老师评分的权重,将参赛队的分数加权平均后再排序,得排名顺序。
(1)五位老师所打平均值向量[]543210,,,,c c c c c =ω,其计算公式为
N
X
c i
ij
j ∑=
,i=1,2,L,101;j=1,2,L,5;N=101
(2)五位老师所打分权重向量[]543211,,,,d d d d d =ω,其计算公式为
∑=
j
j
j c c d ,j=1,2,L,5
(3)参赛队i X 的加权平均分为
5,1
==
∑=m m
c X
X m
j j
ij
i
在Excel 中计算出相应的值,得
0ω=[76.50495,79.90099,80.05941,79.26733,79.9802] 1ω=[0.193335,0.201917,0.202317,0.200315,0.202117]
结论:对比用两种方法,可以看出最后参赛队的排序基本一致,故两种方法都可行。
5.3问题三
5.3.1模型的建立
(1)设X 是一个随机变量,称j X 为X 的平均值。 平均值的计算公式:
N X
X i
ij
j ∑=
,N=101
(2)由于所有的评分都处于[50,100]之内,所以我们可以把数据分为五个分数区间,分别为[50,60),[60,70),[70,80),[80,90),[90,100)。其中[50,60)为低分段,[90,100)为高分段。
(3)设X 是一个随机变量,若()[]2
EX X E -存在,则称()[]
2
EX X E -为X 的
方差,记为DX 或Var(X)。即()[]2
EX X E DX -=称为方差,即用来衡量一组数据
离散程度的统计量。 方差的计算公式:
()∑-=
i
j
ij
j X X
N
DX 2
1,i=1,2,L,101;j=1,2,L,5;N=101
5.3.2.模型的求解
由excel可得出:
老师打分的均值与方差表
分数区间表
分数段甲老师乙老师丙老师丁老师戊老师
50-60 9 4 0 4 2
60-70 28 18 22 21 20
70-80 16 23 26 24 24
80-90 26 30 27 28 30
90-100 22 26 26 24 25
由此绘出分数区间图
根据图表中的数据,我们可以得出老师打分的严格程度(按严格到不严格排列)为:甲→丁→乙→戊→丙。
5.4问题四
5.4.1模型的建立
i DX 表示的第i 队的方差,计算公式为:
∑=-=5
1
2)(51j i ij i X X DX ,i=1,2,L,101,j=1,2,3,4,5
5.4.2模型的求解
通过Excel 表格计算每队的平均分选出平均分在80分以上的队算出方差,
通过分析上表,我们得出参赛队应从以下区间段中选择,其各个区间段和对
由上表可知,在前四个区间段共有6个参赛队进入复评,我们还需要在[85.00,86.00)选择方差较小的4个参赛队参加复评。
由上表知,区间段[85.00,86.00)参加复评的参赛队为:40、66、87、91。
综上所述,参加复评的参赛队为:39、19、51、47、5、4、40、66、87、91。
六模型的评价
6.1模型的优点
对小组排名我们运用了两种方法进行排序,通过对比发现结果类似,说明模型与实际有较好的吻合性。参加复评的小组是以平均分和方差相结合而平定的,并不是单纯的以均值来认定那些组参加复评。
6.2 模型的缺点
对于问题一的处理剔除了一些不合理的数据,拟合出来的函数可能与真实值产生一些偏差,但总体上还是有一定的真实性的。
七模型的推广
对成绩的评定,分析,排序以及选取某些成绩的好参加复评都是一个普遍性问题,处理好这类问题,建立一套完整可靠的模型,对今后解决这类问题有重要的贡献。尤其是在解决选取参加复评队伍的方法,可以得到更广泛的应用,也可以应用于许多类似的问题上
八参考文献
一,《matlab程序设计教程》中国水利水电出版社。
二,姜启源,谢金星,叶俊,《数学模型(第三版)》,北京:高等教育出版社,2003年。
三,武汉大学数学建模公选课论文——陈志伟。
附录:
1,X=xlsread('102.xls');x1=X(:,2);x2=X(:,3);x3=X(:,4);x4=X(:,5);x5=X(:,6);
e=ones(90,1);XX=[e,x2,x3,x4,x5];
[b,bint,r,rint,s]=regress(x1,XX)
a=[1 97 76 87 64]*b
b =
61.9495
-0.0206
0.0919
-0.0878
0.2174
a =
72.4494
,
2,X=xlsread('102.xls');x1=X(:,2);x2=X(:,3);x3=X(:,4);x4=X(:,5);x5=X(:,6);
e=ones(90,1);XX=[e,x1,x3,x4,x5];
[b,bint,r,rint,s]=regress(x2,XX)
a=[1 68 65 84 87]*b
b =
91.7383
-0.0199
-0.1818
0.0451
0.0010
a =
823.7651
,
3,X=xlsread('102.xls');x1=X(:,2);x2=X(:,3);x3=X(:,4);x4=X(:,5);x5=X(:,6);
e=ones(90,1);XX=[e,x1,x2,x4,x5];
[b,bint,r,rint,s]=regress(x3,XX)
a=[1 63 94 82 76]*b
b =
78.5991
0.0743
-0.1520
0.1572
-0.0602
a =
77.1569