当前位置：文档库 › 数学建模疾病的确诊

数学建模疾病的确诊

题目：疾病确诊问题的实证研究

【摘要】

人们到医院就诊时，其是否患肾炎一般要通过化验人体内各种元素的含量来协助医生的诊断。为了更好地解决实际问题，我们建立了logistic回归模型、决策树模型以及判别分析。

logistic回归又称logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率等。本文中通过题设给出的两组人体内各种元素的含量，一组是有肾炎组，一组是非肾炎组，这里的因变量就是是否有肾炎，即“是”或“否”，为两分类变量，自变量包括a

Zn,，通过logistic回归分析，就可以大致了解到Fe,

u N

Mg,

Ca,

底哪些因素是判定肾炎的关键因子。决策树是一种倒立的树结构，它由内部节点、叶子节点和边组成。构造决策树的目的是找出属性和类别间的关系，一旦这种关系找出，就能用它来预测将来未知类别的记录的类别。判别分析又称“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

【关键字】Logistic回归、决策树、多元统计分析、判别分析

1、问题重述

人们到医院就诊时，通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表1是确诊病例的化验结果，其中1－30号病例是已经确诊为肾炎病人的化验结果；31－60号病例是已经确定为非肾炎病人的结果。表2是就诊人员的化验结果。

需要解决的问题：

(1)、根据表1中的数据，给出一种或多种简便的判别方法，判别是否属于肾炎患者的方法，并检验你的方法的正确性；

(2)、按照(1) 中给出的方法，对表2中的30名就诊人员的化验结果进行判别，判定他们是否肾炎病人；

(3)、能否根据表1的数据特征，确定哪些指标是关系到人们患肾炎的主要或关键因素，以便减少化验的指标；

(4)、根据(3) 中的结果，重复(2) 的工作；

(5)、对(2) 和(4) 的结果作进一步的分析。

们到医院就诊时，通常要化验一些指标来协助医生的诊断。本文借助肾炎这一病例以及相关数据对通常化验指标作出相关分析，帮助判断人们是否得肺炎，以助医生能更好地判断病情并作出相应的解释。

2、问题分析

2.1、模型定义

1到30号为有病，定义有病为Y=1,30到60号为没得肺炎，定义为Y=0.

2.2、模型构建

2.2.1、Logistic模型

变形为()=+

其中x为解释变量，Y为被解释变量，p为Y为1的条件概率。

2.2.2、决策树模型

决策树是一种倒立的树结构，它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。构造一棵决策树需要一个训练集，一些例子组成，每个例子用一些属性（或特征）和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系，一旦这种关系找出，就能用它来预测将来未知类别的记录的类别。构造一个决策树分类器通常分为两步：树的生成和剪枝。其中树的生成是采用自上而下的递归方法。以多叉树为例，它的构造思路是，如果训练例子集合中的所有例子是同类的，则将之作为叶子节点，节点内容即是该类别标记。否则，根据某种策略选择一个属性，按照属性的各个取值，把例子集合划分为若干子集合，使得每个子集上的所有例子在该属性上具有同样的属性值。然后再依次递归处理各个子集。

2.2.3、判别分析

判别分析的基本假设有三个

1、每一个解释变量不能是其他解释变量的线性组合，即每个解释变量都是独立的

2、各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数，他们是判别变量的简单线性组合。在各组协方差矩阵相等的假设下，可以使用很简单的公式计算判别函数和进行显著性检验。

3、各判别变量之间具有正态分布，即每个变量对于其他变量的固定值有正态分布。

判别分析主要有距离判别、贝叶斯判别和Fisher判别。本文使用距离判别和Fisher判别来进行分析。距离判别的基本含义就是判断样品到总体Y1,Y2的距离d1,d2，若d1

,，其中，，，分别为总体Y1，Y2的均值和协方差矩阵。Fisher判别的思想是投影，将k

组p维数据投影到某一方向，使得他们的投影组与组之间尽可能的分开，这种方法借助了一元方差的思想。

2.3、模型解释

2.3.1、对于Logistic模型、决策树模型，主要利用SAS的enterprise、miner模块

进行数据处理，变量的选择，模型的构建，模型的评价以及对样本的诊断。

建立如下的数据分析流程图：

数据挖掘流程图

第一个数据集（即第一个节点work.yaowu1）导入的是1-60号的样本，其中加入变量result，当id为1-30时，result=1，其他的为0。第二个数据集（work.yaowu2）导入的是61-90号样本,作为需要诊断的样本。第二个节点采用分层抽样的方法把样本分为两部分，即training集和validation集，两部分分别所占样本的比例为70%，30%。第三个节点对自变量进行筛选，选择标准为去掉在5%的显著水平下与目标变量（result）的相关系数不显著的自变量。经过筛选后结果如下图：知7个变量与result均显著相关，故全部保留。