文档库 最新最全的文档下载
当前位置:文档库 › 第七章 数据处理

第七章 数据处理

第七章 数据处理
第七章 数据处理

第七章 数据处理及应用

【教学目的】:本章着重介绍数据的插值、拟合与多元回归分析,并利用Matlab 相应工具结合具体案例进行分析。 【教学重点难点】:

教学重点:插值与拟合,回归分析,聚类与分类。

教学难点:定性与定量的结合,如何在定性分析基础上给出适当的定量关系。 【课时安排】:8学时 【教学方法】:采用多媒体教学手段,配合实例教学法,通过对典型例题的讲解启发学生思维,并给与学生适当的课后思考讨论的时间,加深知识掌握的程度。安排一定课时的上机操作。 【教学内容】:

7.1数据插值与拟合

在工程和科学实验中,当研究对象的机理不清楚的时候,经常需要从一组实验观测数据 (x i , y i ) (i = 1, 2, …, n )中寻找自变量x 与因变量y 之间的某种函数关系 y = f (x )。比如测量了人的身高和体重的一些数据,要确定两者的函数关系,但身高与体重的机理我们不清楚,所以寻找尽量吻合这组测量数据的近似函数模型就很重要了。函数 f (x ) 的产生办法因观测数据与要求的不同而异,通常可采用数据插值与数据拟合的方法。

7.1.1数据插值

1.插值问题的描述

对给定的一组测量数据,要确定通过所有这些数据点的曲线或曲面的问题就是插值问题。对一维插值问题可以这样描述:设f (x )在区间[a , b ]上连续,x 0,x 1,…,x n 为 [a , b ]上n +1个互不相同的点,且已知f (x )的一组实验观测数据 (x i , y i ) (i = 1, 2, …, n ),要求一个性质优良、便于计算的近似函数?(x ),使得

i i y x =)(?,i =0,1,…,n (7.1)

成立,这就是一维插值问题。其中称[a , b ]为插值区间,点x 0,x 1,…,x n 为插值节点,函数?(x )为插值函数,f (x )为被插值函数,式(1)为插值条件。求插值函数?(x )的方法称为插值法。

关于高维插值可类似定义,本节只介绍一维和二维插值。

2.基本插值方法简介

插值函数的取法很多,可以是代数多项式,也可以是三角多项式或有理函数;可以是[a , b ]上任意光滑函数,也可以是分段光滑函数。对一维插值,最常用最基本的插值方法有:分段多项式插值与三次样条插值;二维插值根据数据分布规律可分为网格节点插值和散乱数据插值,相应的方法有双三次样条插值方法和改进的Shepard 方法。具体的方法原理请参阅计算方法的专业书籍,这里不再详细介绍。下面我们着重介绍Matlab 中如何实现数据插值。

3.插值方法的Matlab 实现

一维数据插值

MATLAB 中用函数interp1()来处理一维数据插值,它提供了四种插值方法供选择:线性插值、三次样条插值、三次插值和最临近插值。

命令 interp1

格式y i = interp1(x, y, x i, 'method') %对被插值节点x i, 用method方法进行插值.

说明(1).输入参数说明:x,y为插值节点,均为向量;x i为任取的被插值点,可以是一个数值,也可以是一个向量;y i为被插值点x i处的插值结果;

(2).其中method是选用的插值方法,具体有:

'nearest'—表示最临近插值

'linear'—表示线性插值,默认

'cubic'—表示三次插值

'spline'—表示三次样条函数插值

注意上述method中所有的插值方法都要求x是单调的,并且x i不能超过x的取值范围, 其中最后一种插值的曲线比较平滑;

(3)三次样条插值函数的调用格式有两种等价格式:

y i = interp1(x, y, x i, 'spline')

y i = spline(x, y, x i)

例1:下表给出了12名成年女子的身高与腿长的测量数据:

试研究身高与腿长的关系,并给出身高为148、150、160时腿长的预测值。

解:在matlab中输入代码:

x=[143 145 146 149 153 155 156 157 158 159 162 164]; %插值节点

y=[88 85 88 92 93 96 98 97 96 98 70 72];

x1=143:0.2:164; %被插值节点,用于确定插值函数.

plot(x,y,'o');hold on %原始测量数据散点图.

y1=interp1(x,y,x1,'spline'); %求被插值节点处的函数值.

yp=interp1(x,y,[148 150 160],'spline') %求身高为148、150、160时腿长.

plot(x1,y1,x,y,'r:') %画出插值函数图形及测量数据的折线图.

xlabel('身高'),ylabel('腿长') %加坐标轴标签

输出结果为:

yp = 91.4561 92.1942 99.4787 %对应身高的腿长

输出图形见图7.1:

图7.1

注意:1).matlab只会给出被插值节点处的函数值,而不会给出具体的函数解析表达式,这有点类似于我们求微分方程的数值解。需要求点对应的插值(未知的),可以将被插值节点放在x i中;2).图7.1中有三条曲线,其中圆圈点是原始测量数据点(横坐标为插值节点),

实线是插值函数图形,虚线是插值节点间的连接折线段。

二维数据插值

针对二维插值中的插值基点为网格节点和散乱节点,MATLAB中分别提供了函数interp2()和griddata()来进行二维插值。先介绍规则区域上给定数据有规律分布的二维插值。

命令interp2

格式z i = interp2(x, y, z, x i, y i, 'method') %针对网格节点的二维插值.

说明(1).输入参数说明:x,y,z为插值节点,其中x和y是自变量,x是m维向量,

m?阶矩阵,表指明数据网格的横坐标,y是n维向量,指明数据网格的纵坐标,z是n

示相应于网格点的函数值;z i 为被插值点(x i, y i) 处的插值结果;

(2).其中method是选用的插值方法,具体有:

'nearest'—表示最临近插值

'linear'—表示双线性插值,默认

'cubic'—表示双三次插值

'spline'—表示双三次样条函数插值

注意上述method中所有的插值方法都要求x和y是单调的网格,x和y可以是等距的也可以是不等距的。x i和y i应是方向不同的向量,即一个是行向量,另一个是列向量。几种方法中最后一种插值的曲面比较平滑。

例2:已知在某山区测得一些地点的高程如下表。其平面区域为4000

≤x,

1200≤≤y,试用不同的插值方法作出该山区的地貌图。

3600

1200≤

解:输入程序代码:

x=1200:400:4000;

y=1200:400:3600;

z=[1130 1250 1280 1230 740 900 500 700

1320 1450 1420 1400 1300 700 900 850

1390 1500 1500 1400 900 170 760 950

1500 1200 170 1350 1450 1200 1150 77

1500 1200 170 1550 1600 1550 1380 770

1500 1550 1600 1550 1600 1600 1600 1550

1480 1500 1550 157 **** **** 1200 980];

%原始数据的山区地貌图

figure(1)

meshz(x,y,z)

xlabel('X'),ylabel('Y'),zlabel('Z')

title('原始数据地貌图')

%为平滑曲面,加密网格

x1=1200:50:4000;

y1=1200:50:3600;

%最临近插值

figure(2)

zn=interp2(x,y,z,x1,y1','nearest');

surfc(x1,y1,zn)

xlabel('X'),ylabel('Y'),zlabel('Z')

title('最临近插值地貌图')

%双线性插值

figure(3)

zl=interp2(x,y,z,x1,y1','linear');

surfc(x1,y1,zl)

xlabel('X'),ylabel('Y'),zlabel('Z')

title('双线性插值地貌图')

%双三次插值

figure(4)

zc=interp2(x,y,z,x1,y1','cubic');

surfc(x1,y1,zc)

xlabel('X'),ylabel('Y'),zlabel('Z')

title('双三次插值地貌图')

%双三次样条函数插值

figure(5)

zs=interp2(x,y,z,x1,y1','spline');

surfc(x1,y1,zs)

xlabel('X'),ylabel('Y'),zlabel('Z')

title('双三次样条函数插值地貌图')

输出可视化图形分别见图7.2—图7.6:

图7.2 图7.3

图7.4 图7.5

图7.6

从图形可以看出,原始数据地貌图是很粗糙的,因为测量点比较少。几种插值方法中最临近插值和双线性插值效果较差,而最后一种插值的曲面比较平滑,效果较好。

如果给定的数据是在规则区域上的散乱数据或随机分布的数据,即数据不是在网格上取的,则可用函数griddata()来解决二维插值问题。

命令griddata

格式z i =griddata(x, y, z, x i, y i, 'method') %针对散乱数据的二维插值.

说明(1).输入参数说明:x,y,z都是n维向量,分别指明所给插值节点的横坐标、纵坐标和z坐标;z i 为被插值点(x i, y i) 处的插值结果;x i和y i应是方向不同的向量,即一个是行向量,另一个是列向量;

(2).其中method是选用的插值方法,具体有:

'nearest'—表示最临近插值

'linear'—表示双线性插值,默认

'cubic'—表示双三次插值

'v4'—表示matlab提供的插值方法

其中'v4'方法比较好。

针对二维散乱插值问题,在matlab中还提供了两个插值函数:e01sef()和e01sff()。通常两者要配合使用,其调用格式为:

[fnodes, a, rnw, b, c] = e01sef(x, y, z)

[sz(i, j), ifail] =e01sff(x, y, z, rnw, fnodes, sx(i),sy(j))

其中:x, y, z —为插值节点, 均为n维向量;

sx(i), sy(j) —为被插值节点;

sz(i, j)—为被插值点(sx(i), sy(j))处的插值结果;

其他输出参数涉及插值算法。两个函数中e01sef输出fnodes和rnw为确定插值的参数,它们是e01sff 需要的输入参数,因此两函数需配合使用。

例3:在某海域测得一些点(x, y)处的水深z(单位:英尺),见下表,水深数据是在低潮时测得的。船的吃水深度为5 英尺,问在矩形区域(75, 200)?(-50, 150)内的哪些地方船要避免进入(AMCM 86A题)。

1. 基本假设

除了一些散乱的测量数据外,题目没有给出其他信息。为了简化问题,首先给出以下合理假设:

(1).所给测量数据是精确可用的;

(2).该海域海底是平滑的, 不存在珊瑚礁、水底峡谷、山脊等突变地形。

2.问题分析

在假设基础上,可以考虑用某种光滑的曲面去拟合逼近已知的数据点或以已知的数据点为基础,利用二维插值方法补充一些点的水深,然后作出海底曲面图和等高线图,并求出水深小于5的海域范围。

3.问题求解

(1).先作出测量点的分布散点图:

输入代码:

x=[129.0 140.0 73.5 88.0 185.5195.0 75.5 157.5 77.5 77.0 81.0 162.0 162.0 117.5];

y=[7.5 141.5 23.0 147.0 22.5 137.5 85.5 -6.5 -81.0 3.0 56.5 -66.5 84.0 -33.5];

z=-[4 8 6 8 6 8 8 9 9 8 8 9 4 9]; %相当于以海平面作为xy平面.

plot(x,y,'o')

title('测量数据xy平面分布图')

图7.7

从图7.7可以直观看出在矩形区域(75, 200)?(-50, 150)内测量点是散乱分布的,所以用matlab中的griddata函数作海底二维插值。

(2).海底地貌图绘制:

xi=75:1:200;

yi=-50:1:150;

zi=griddata(x,y,z,xi,yi','v4'); %用v4方法作散乱数据的二维插值.

figure(2)

mesh(xi,yi,zi)

xlabel('X');ylabel('Y');zlabel('Z');

title('海底地貌图')

rotate3d %产生可旋转的3D图形.

图7.8

图7.8给出了在矩形海域(75, 200)?(-50, 150)内,海底的地貌图。其中明显有些区域海水深度较浅,不适合船只通过,为了更准确确定吃水深度为5英尺的船只不能进入的海域,下面我们绘出该区域的危险区域的海底地貌图。

图7.9

(3).危险区域,即水深小于5英尺的海底地貌图:

[u,v]=find(zi>-5); %在zi矩阵中找出值大于-5的元素并将坐标存入向

量u,v,也就是找出水深小于5英尺的插值点.

zzi=zeros(size(zi))-5; %产生一个与zi同型的, 元素均为-5的矩阵.

for i=1:length(u)

zzi(u(i),v(i))=zi(u(i),v(i)); %将zi中值大于-5的元素替换zzi中对应元素.

end

figure(3)

mesh(xi,yi,zzi) %绘出以z坐标等于-5为基底面的危险区域地貌图.

rotate3d

xlabel('X');ylabel('Y');zlabel('Z');

title('海底危险区域地貌图')

图7.9给出了水深小于5英尺的海底区域的地貌图,它可以理解成用z=-5的平面去截图7.8所得上半部分的图形。

(4).危险区域平面图:

危险区域平面图,即绘制z=5的等高线,代码和等值线图如下:.

figure(4)

contour(xi,yi,zi,[-5,-5],'r') %作深度为5的海底等值线图

xlabel('X');ylabel('Y')

title('危险区域平面图')

图7.10

图7.10给出了平面矩形区域(75, 200)?(-50, 150)内的危险区域,其中线条内部区域是船只要避免进入的区域。

7.1.2 数据拟合

1.拟合问题的描述

对给定的一组测量数据(x i , y i ) (i= 1, 2, …, n),如果要寻找变量x与y的函数关系的近似表达式,前面提到的插值方法在一定程度上可以较好解决问题,但它有明显的缺陷。一是测量数据常带有测试误差,而插值多项式又经过所有这些点,保留了误差;二是如果实验测量数据较多,则必然出现高次插值多项式,这样近似效果并不理想。而数据拟合却能较好的避免这些问题。

所谓数据拟合就是从给定的一组数据出发,寻找函数的一个近似表达式y=?(x),要求该函数在某种准则下能尽量反应数据的整体变化趋势,而不一定经过所有数据点(x i , y i )。数据拟合问题也叫曲线拟合问题,其中y=?(x)称为拟合曲线。

求解曲线拟合问题要求我们先要给出拟合的函数类型,然后利用测量数据按照一定的方法求出参数,其中最常用的解法是最小二乘法。

2.曲线拟合的最小二乘原理

对给定的一组测量数据(x i , y i ) (i = 1, 2, …, n ),拟合的函数为()m a a a x y ,,,,21 ?=,其中m a a a ,,,21 为待定系数。为使函数在整体上尽可能与给定数据点接近,我们常采用n 个已

知点(i x ,i y )与曲线的距离(偏差))(i i i x y ?δ-=的平方和最小,即

()∑=-=n

i i i m x y a a a x 1

2

21)(),,,,(min ??

来保证每个偏差的绝对值||i δ都很小,这一原则称为最小二乘原则,根据最小二乘原则确定拟合函数的方法称为最小二乘法,满足上述要求的参数取值称为该问题的最小二乘解。

确定最小二乘解的问题涉及多元函数的极值问题,在后面回归分析中我们还会有所接触,这里我们不再详细介绍,有兴趣的同学可以参考数学分析或计算方法类教科书。我们的重点是掌握应用MA TLAB 工具进行最小二乘估计,即进行曲线拟合。事实上在MA TLAB 中已有现成的求最小二乘问题的函数polyfit ,称为多项式拟合函数,并且这个函数允许多项式的次数可以是任意次的。同学们即使没有这方面的数学基础,只要软件工具熟悉了,一样可以做的很好。

曲线拟合分为线性最小二乘拟合和非线性最小二乘拟合。如果拟合函数的待定系数a 0, a 1, a 2, …, a m 全部以线性形式出现,我们称之为线性最小二乘拟合;如果拟合函数的待定参数a 1, a 2, …, a m 不能全部以线性形式出现,如指数拟合函数

x a e a a x 2

10)(+=?

等,这就非线性最小二乘拟合问题。

注意:最小二乘原理中的偏差也可以是点到直线的垂直线段的长度(点到直线的距离),也可以是点沿(平行)X 轴方向到直线的距离(横向距离)或点沿(平行)Y 轴方向到直线的距离(纵向距离)。其中最常用是纵向距离。

3.拟合函数的确定

最小二乘法中,确定拟合函数类型是很关键的。常用的有两种方式:

1).通过机理分析建立数学模型来确定? (x ) ,比如前面提到的人口增长的logistic 模型就是机理分析法推导出来的,但参数的确定需要用到统计数据进行曲线拟合;

2).如果无现成的规则或事物机理不清楚,可以通过散点图,结合曲线的形状变化趋势进行分析,建立经验模型。

比如图7.11中数据点基本分布在一条带型区域上,所以可以考虑用直线模型作为经验模型;对图7.12,可以看作二次曲线,也可以用反指数函数作为经验模型。

图7.11 图7.12

当然这具有一定的主观性,因此要求我们多观察分析,找出最适合的拟合函数。一种好的处理方法是对同一问题,分别选择不同的函数进行最小二乘拟合,比较各自误差的大小,从中选出误差较小的作为拟合函数。

4.用Matlab 进行曲线拟合

值线性最小二乘拟合

MATLAB 中线性最小二乘拟合其实就是作多项式11)(++++=m m m a x a x a x f 拟合,他可以看作是函数1,,,x x m

的线性组合。 命令 polyfit ,polyval

格式 a=polyfit(x, y, m) %对给定数据作m 次多项式拟合.

y=polyval(a, x) %调用拟合出来的多项式计算在x 处的值,即求预测值.

参数说明:x,y —同长度的数组,需要拟合的实验数据;

a —输出拟合多项式系数a = [a 1, a 2, …, a m+1] (数组),从高次到低次; m —拟合多项式次数。

例4:对本节例题1中数据作多项式拟合。 解:输入代码:

x=[143 145 146 149 153 155 156 157 158 159 162 164]; y=[88 85 88 92 93 96 98 97 96 98 70 72]; plot(x,y,'o'); %绘制散点图.

a=polyfit(x,y,1); %作1次多项式拟合. z=polyval(a,x) %求预测值.

plot(x,y,'o',x,z,'r-') %拟合效果对比图. xlabel('身高'),ylabel('腿长') 拟合效果对比图如下:

图7.13

拟合系数为:a = 0.7465 -20.4874,即a 1=0.7465,a 2=-20.4874。

例5:已知一室模型快速静脉注射下的血药浓度数据 (t =0注射300mg)如下表:

试求血药浓度随时间的变化规律c (t )。

解:1).作出散点图,观察规律,代码和图形如下: t=[0.25 0.5 1 1.5 2 3 4 6 8];

c=[19.21 18.15 15.36 14.7 12.89 9.32 7.45 5.24 3.01]; figure(1)

plot(t,c,'+'); %绘制散点图 xlabel('时间'),ylabel('药物浓度')

图7.14

图7.14显示血药浓度随时间的变化规律是时间越长,浓度越低,而且开始时下降速度快,逐渐减弱,两者关系大致呈现类抛物线规律,因此考虑用多项式作拟合。

2).作线性拟合:

a=polyfit(t,c,2) %2次多项式拟合. z=polyval(a,t) figure(2)

plot(t,c,'+',t,z,'r-') %2次多项式拟合效果对比图.

图7.15

拟合多项式系数为:a =0.2564 -4.788 19.8437。

故所求的二次拟合多项式为19.84374.1088x -0.2564x y 2

+=。从图7.15可以看出模型拟合效果良好,除个别点存在较大偏差外,基本反映了实验数据的变化趋势。为了寻求更好的拟合函数,下面考虑用3次多项式进行拟合,对比效果见图7.16,程序略。

图7.16

非线性最小二乘拟合

MATLAB 中提供了两个求非线性最小二乘拟合的函数:lsqcurvefit 和lsqnonlin 。它们所采用的算法是一样的。两个命令都要先建立M-文件fun.m ,在其中定义函数f(x),但两者定义f(x)的方式是不同的。这里主要介绍lsqcurvefit 的应用。

命令 lsqcurvefit

格式 x = lsqcurvefit(…fun?,x0,xdata,ydata) %用xdata, ydata 拟合fun 中的参数并返回x.

x = lsqcurvefit(…fun?,x0,xdata,ydata,lb,ub)

x = lsqcurvefit(…fun?,x0,xdata,ydata,lb,ub,options) [x,resnorm] = lsqc urvefit(…)

[x,resnorm,residual] = lsqcurvefit(…)

[x,resnorm,residual,exitflag] = lsqcurvefit(…)

[x,resnorm,residual,exitflag,output] = lsqcurvefit(…)

[x,resnorm,residual,exitflag,output,lambda] = lsqcurvefit(…)

[x,resnorm,residual,exitflag,output,lamb da,jacobian] =lsqcurvefit(…)

参数说明

(1).)xdata ,xdata ,xdata (xdata n 21, =,)ydata ,ydata ,ydata (ydata n 21, =是满足关系ydata=F(x, xdata)的已知数据点;),,,(x 21m a a a =为参数向量;x0为迭代初值;lb 、ub 为解向量的下界和上界,若没有指定界,则lb=[ ],ub=[ ];options 是选项;

(2). fun 是一个事先建立的定义拟合函数xdata)F(x,的M-文件, 自变量为x 和xdata ; (3). resnorm=sum ((fun(x,xdata)-ydata).^2),即在x 处残差的平方和;

residual=fun(x,xdata)-ydata ,即在x 处的残差; exitflag 为终止迭代的条件; output 为输出的优化信息;

lambda 为解x 处的Lagrange 乘子;

jacobian 为解x 处拟合函数fun 的jacobian 矩阵。

例6:已知上个世纪近两百年的美国人口统计数据如下表,试建立描述人口增长变化的数学模型,并用所给数据拟合出相应参数。

解:1).数学模型描述:

在第3章我们已经介绍了人口增长的经典数学模型,logistic 模型:

x t x x x e m

m

rt ()(

)=

+--110

其中参数x 0为人口初始数据,x m 为最大人口容量,r 为固定增长率,x (t )为第t 年人口数量。只要估计出模型的参数,就可以进行预测。其中x 0可以用第一年的统计数据代替,另两个参数需要用曲线拟合的方法进行估计。

2).对参数作非线性拟合

(1).先定义外部函数,文件名为usa_renkou.m

function f=usa_renkou(x,year)

f=x(1)./(1+(x(1)/3.9-1).*exp(-x(2).*year)); %x(1)=xm;x(2)=r;x0=3.9

(2).输入主程序

year=0:1:21; %将年份用0-21替换,即0表示1790年,21对应2000年.

usp=[3.900 5.300 7.200 9.600 12.90 17.7 23.20 31.40 38.60 50.20 62.90 76 92 76.5 123.2 131.7 150.7 179.3 204.0 226.5 251.4 281.4];

x0=[70 1.8];

x=lsqcurvefit('usa_renkou',x0,year,usp)

z=usa_renkou(x,year); %调用函数进行人口预测.

plot(year,usp,'o',year,z,'r')

xlabel('年份');ylabel('人口数量');

title('1790-2000年美国人口数量拟合效果图')

(3).运行结果为:

x =

342.4339 0.2735

z = Columns 1 through 16

3.9000 5.786 6.6844 8.7337 1.3899 1

4.8180 19.2181 24.8257 31.9081 40.7517

51.6387 64.8095 80.476 98.4357 118.6714 140.6687

Columns 17 through 22

163.7595 187.1252 209.9082 231.3333 250.8067 267.9655

即所求参数为x m=342.4339,r=0.2735,z为预测值向量。对比效果见图7.17。

图7.17

(4).预测与误差:

这里我们仅用拟合出来的函数计算2005年的美国人口数据,只需执行usa_renkou(x,26)后便可得2005年预测人口为319.7976百万。而实际上2005年美国人口数为296百万,预测误差为7.4%。从图7.17也可以看出模型在19世纪中叶到20世纪中叶拟合效果不太理想,但这段时间前后拟合效果还是很好的。

例7:NPK施肥问题(1992年全国大学生数学建模竞赛A题)

某地区作物生长所需的营养素主要是氮(N)、钾(K)、磷(P)。某作物研究所在某地区对土豆与生菜做了一定数量的实验,其中土豆的实验数据如下列表所示,其中ha表示公顷,t 表示吨,kg表示公斤。当一个营养素的施肥量变化时,总将另两个营养素的施肥量保持在第七个水平上,如对土豆产量关于N的施肥量做实验时,P与K的施肥量分别取为196kg

/ha与372kg/ha。

试分析施肥量与产量之间关系,并对所得结果从应用价值与如何改进等方面做出估价。

解: 为考察氮、磷、钾三种肥料对作物的施肥效果,我们以氮、磷、钾的施肥量为自变量,土豆产量为因变量描点作图,先观察数据的分布特点和变化规律。

1).输入数据,绘制施肥量与土豆产量的散点图:

nshi=[0 34 67 71 135 202 259 336 404 471]; %N的施肥量.

nchan=[15.18 21.36 25.72 32.29 34.03 39.45 43.15 43.46 40.83 30.75];

pshi=[0 24 49 73 98 147 196 245 294 342]; %P的施肥量.

pchan=[33.46 32.47 36.06 37.96 41.04 40.09 41.26 42.17 40.36 42.73];

kshi=[0 47 93 140 186 279 372 465 558 651]; %K的施肥量.

kchan=[18.98 27.35 34.86 39.52 38.44 37.73 38.43 43.87 42.77 46.22];

figure(1)

plot(nshi,nchan,' ') %N施肥量与产量关系图.

figure(2)

plot(pshi,pchan,'ro') %P 施肥量与产量关系图. figure(3)

plot(kshi,kchan,'b+') %K 施肥量与产量关系图. 2).运行后,输出图7.18—图7.20:

图7.18 N 施肥量与产量关系图 图7.19 P 施肥量与产量关系图

图7.20 K 施肥量与产量关系图 图7.21 N 施肥量与产量拟合效果图

图7.22 P 施肥量与产量拟合效果图 图7.23 K 施肥量与产量拟合效果图 3).分析与建模:

从图7.18—图7.20可以看出:土豆产量随着N 的施肥量的增加而增加,到达一定程度以后,反而随施肥量增加而减少;在一定范围内的P 的施肥量和K 的施肥量可以促使土豆产量增长,过多的施磷肥或施钾肥对土豆产量没有明显作用。这些结论和查阅农业资料得到的结果是一致的。为了便于下面描述,用x 表示肥料的施肥量,y 表示土豆产量,则根据数据特点,可分别用下面三个经验模型来描述肥料的施肥量对土豆产量的影响:

氮肥(N):二次多项式模型2210x b x b b y ++=; 磷肥(P):分段线性拟合或威布尔函数模型)1(C

Bx e A y +--=;

钾肥(K):分式有理函数模型b

ax x

y +=

; 这些模型是我们基于经验上的一种判断,事实上农学专家根据专业知识建立的作物产量模型与上面这些经验模型是非常接近的。当然你也可以尝试用其他模型来拟合。不管那种模型,必须确定公式中的各个参数,才可以加以应用。

4).模型参数的估计:

(1). 对氮肥—产量模型,拟合程序段为: a=polyfit(nshi,nchan,2) z=polyval(a,nshi) figure(4)

plot(nshi,nchan,'*',nshi,z,'r-') 参数估计值如下,拟合效果见图7.21: a = -0.0003 0.1971 14.7416

z =14.74 16 21.05 22 26.42 65 31.1902 35.1688 40.7116 43.0272 42.6520 38.9729 32.2769 即所求模型为:20003.01971.07416.14x x y -+=.

注意:如果直接用这个模型拟合,效果会比图7.21差,特别是x 较大时,这是因为matlab 默认输出小数点后4位数字,而实事上用vpa()函数可见2次项系数应为-0.0003395。

(2). 对磷肥—产量模型,用威布尔模型进行拟合,先定义外部函数如下: function f=weib_function(x,pshi)

f=43.*(1-exp(-x(1).*pshi+x(2))); %威布尔函数,A=43;x(1)=B;x(2)=C. 主程序段为: x0=[0.2,0.5];

x=lsqcurvefit('weib_function',x0,pshi,pchan) %调用定义的威布尔函数进行拟合. pchan_theory=weib_function(x,pshi) %基于磷施肥量的土豆产量预测值. figure(5) plot(pshi,pchan,'o',pshi,pchan_theory,'r')

执行程序后输出图形7.22,参数估计值如下: x = 0.0079 -1.4669 即所求模型为:(

)4669

.10079.0143---=x e

y .

注意:从原始数据中可以看出,随着磷的施肥量增加,土豆产量始终在43(t/ha)以下,于是43可认为是产量的极限值,又因B>0时,

A e A C

Bx x =-+-∞

→)(1lim , 因此在模型中可令参数A=43,这样可以简化计算。而且如果直接对三个参数进行非线性拟合,效果很糟糕,大家可以试一下并分析其原因。

磷施肥量—土豆产量实验数据中有)24()0(y y >,但是在施肥量较少时,产量应该随施肥量增加而增加,故可以认为y(0)、y(24)是病态数据,并可取y (0)与y (49)的一次线性插值)]

49()0([1y y +来取代y(24)。

磷施肥量—土豆产量实验数据中还可以发现开始一段呈快速线性增长趋势,当施肥量到达98左右时开始呈平缓趋势,线性关系不如开始,所以可以考虑作分段线性拟合。有兴趣的同学可以自己试一下。

(3). 对钾肥—产量模型,用分式有理函数模型进行拟合,先定义外部函数如下: function f=npk_function(x,kshi)

f=kshi./(x(1).*kshi+x(2)); %分式有理函数 主程序段为: x0=[0.0,0.05];

x=lsqcurvefit('npk_function',x0,kshi,kchan) kchan_theory=npk_function(x,kshi) figure(6)

plot(kshi,kchan,'+',kshi,kchan_theory,'r')

执行程序后输出图形7.23,参数估计值如下: x = 0.0222 0.6537 即所求模型为:6537

.00222.0+=

x x

y .

在分式有理函数中由于x =0,即施肥量为0的时候,预测产量为0,这与实际是有较大偏差的,如补充定义x =0时分式函数值为对应实际产量值,则效果要好些;当∞→x 时,y 的极限值为45.045,与实际数据的极限产量比较接近,可见模型基本反映了数据的整体变化趋势,是可行的。

对生菜产量与施肥量的关系可以类似讨论,大家可以根据对数据的分析,选择合理的经验模型进行拟合,这里不再详细介绍。

最后我们指出,本题解决过程中是将每组实验看成单因素实验,建立的是一元模型,事实上,作物产量不仅跟这些肥料有关,还与它们的交叉作用、配比有关,因此孤立的看待它们的关系是不完整的。在农业科学中,可以用三元二次多项式来描述氮、磷、钾三种肥料的综合施肥效果,所用方法可以考虑本章第三节即将介绍的多元回归分析来处理,但实验方式也要改进,比如引进正交试验,有兴趣的同学可以查阅第三节或其它相关资料。

5. 非线性拟合的线性化

部分非线性拟合函数经变量代换可化为线性函数,利用线性估计来间接估计非线性模型的参数。例如对前面的分式有理函数

b

ax x

y +=

, 可令x

x y y 1

,1='=

',则模型线性化为: x b a y '+='. 又如S 型曲线

x

be a y -+=

1

令x e x y

y -='=

',1

,模型线性化为:x b a y '+='。应用当中我们只需对数据进行相应变换(倒数、对数变换等)便可利用线性拟合估计出新参数,然后还原非线性参数。更详细的可参阅本章第四节非线性回归模型的线性化部分。

6. 实际应用中插值与拟合方法的选择

由于插值与拟合方法面对的问题具有很大的相似性,最终目的都是对给定一组测量数据,找出尽量反应数据变化趋势的近似函数,并进行预测。所不同的是插值要经过所有数据点,而拟合却不需要,这决定了两者在方法和原理上有本质区别。那么在实际应用中,究竟选择哪种方法比较恰当?大致可从以下两方面来考虑:

(1).如果给定的数据是少量的且被认为是严格精确的,那么宜选择插值方法。因为采用插值方法可以保证插值函数与被插函数在插值节点处完全相等;

(2).如果给定的数据是大量的测试或统计的结果,并不是严格精确的,那么宜选用数据拟合的方法。这是因为,一方面测试或统计数据本身往往带有测量误差,如果要求所得的函数与所给数据完全吻合,就会使所求函数保留着原有的测量误差;另一方面,测试或统计数据通常很多,如果采用插值方法,不仅计算麻烦,而且逼近效果往往较差。

(3).如果研究对象机理清楚,其数学模型可以确定,则应用数据拟合对参数加以估计。

7.2 一元回归分析

一元线性回归(linear regression)是描述两个变量之间相互关系的最简单的回归模型。它和前面讲到的一元线性拟合是一致的。本节将简要介绍一元线性回归的基本模型、参数估计的最小二乘原理、回归方程的相关检验、预测和控制的理论及应用。

1.一元线性回归的基本概念

为了便于引入回归分析的相关概念,我们先看一个引例:

引例:著名的英国生物学家、统计学家、回归分析的鼻祖道尔顿(F.Gallton)和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录,试图寻找出儿子们身高与父亲们身高之间的关系。下表给出了其中十对父子的身高数据(单位:cm):

请给出两者的定量关系。

在许多实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素之间的关系。如上面这个问题中,我们知道影响人的身高的因素很多,而遗传因素可能是其中非常重要的一个,所以重点考虑父辈与子辈的身高指标。首先以父辈身高为x轴,儿子身高为y轴,画出散点图7.24如下:

图7.24 父子身高关系图

从图中可以看出,这些点大致分布在一个带型区域或一条直线附近,可以粗略把两者关系看作直线关系。但数据点又并非在直线上,所以父子身高之间不是确定性关系,但有着密切

的相关关系。为便于探讨y 与x 之间的统计规律性,通常用下面的数学模型来描述它。

?

??==++=2

10,0σεεε

ββD E x y (7.2) (7.2)式称为变量y 对x 的一元线性回归模型。一般称y 为被解释变量,或因变量

(dependent variable );x 为解释变量,或自变量(independent variable )。式中10,ββ和2

σ是未知参数,10,ββ称为回归系数,ε是一个随机变量,通常假定它服从期望为零、方差为2

σ的正态分布。

由(7.2)式,只要估计出回归系数0β和1β就可以算出当x 已知时x Y E 10)(ββ+=的值。通常

x x y E 10)(ββ+= (7.3) 称为一元线性回归方程,在图形上它表示一条截距为0β、斜率为1β的直线,这条直线称为

一元线性回归直线。一般用1

0?,?ββ和2

?σ分别表示10,ββ和2

σ的估计值,称 x y 1

0???ββ+= (7.4) 为y 关于x 的一元线性经验回归方程。

2. 回归系数10,ββ和方差2

σ的估计

利用样本数据得到回归参数10,ββ的估计值,通常使用的是普通最小二乘估计(Ordinary Least Square Estimation ,简记为OLSE),这和第一节数据拟合所使用的最小二乘原理是一致的。即对每一个样本观测值(i i y x ,),最小二乘法的基本思想就是尽量使线性回归直线与所有样本数据点都比较靠近,即要观测值i y 与其期望值i i i x x x Y E 10)(ββ+==的差越小越好,也就是偏差最小(图7.25直观反映了一元线性回归中各点的偏差),为防止差值正负抵消,考虑这n 个差值的平方和达到最小,即求满足 ∑=--=

n

i i i

x y

Q 1

21010)(),(min ββββ (7.5)

的参数估计值1

0?,?ββ。

求出满足(7.5)式中的0

?β和1?β是一个多元函数求极值点的问题。由于Q 是关于0β和1β的非负二次函数,

因而它的最小值总是存在的。根据微积分中求极值的原理,对),(10ββQ 分别关于0β和1β求偏导,并令它们等于0,得

()[]()[]???????=+--=??=+--=??∑∑==02021101

1

100i n

i i i n

i i i x x y Q x y Q

ββββββ 整理后,得正规方程组:

???????

=+=+∑∑∑∑∑=====n

i i i n i i n i i n

i i n i i y x x x y x n 11211

01

110ββββ 求解正规方程组,得:

∑∑∑∑∑∑∑=======---=

??

? ??--=n

i i

n

i i i

n

i i n i i n

i i

n i i n i i i x x

y y x x

x x n y x y x n 1

2

1

2

1121

1

1

1

)()

)((?β

x y n

x

n

y

n

i i

n

i i

1

1

1

1

???βββ-=-=∑∑== (7.6) (7.6)式中的10?,?ββ称为10,ββ的普通最小二乘估计。可以证明,10?,?ββ是10,ββ的最小二乘无偏估计,即00)?(ββ=E ,11)?(ββ=E 。记i e 为实际观测值i y 与其估计值i i x y 10???ββ+=的偏差,称为残差,即i i i y

y e ?-=,∑=n

i i

e

1

2

称作残差平方和(Residual Sum of Square )。

随机误差项的方差2

σ的无偏估计:

对误差项的方差2

σ,可以证明其无偏估计量为:

2

2)?(?1

2

1

2

2-=

--=∑∑==n e

n y

y n

i i

n

i i

i

σ

其平方根σ

?称为估计标准误差,有时也记作yx S ,展开可得 2

???1

11

01

2

---==∑∑∑===n y x y y S n

i i

i n

i i n

i i

yx ββσ

.

3.一元线性回归方程的检验

获得经验回归方程x y 10???ββ+=后,还不能马上就用它去作分析和预测,因为x y 1

0???ββ+=是否真正能够反映这些点之间的关系,对这些点之间的关系或趋势反映到了何种程度,都还不清楚。事实上对任意两变量的一组观测数据,都可以用线性回归的方法求

出经验回归直线方程,如果两变量之间有较好的线性相关性,则回归模型能较好描述两者关系,否则就没有多大价值。因此,在求回归直线方程前,检验变量之间是否存在线性相关性就很有必要,虽然散点图可以作为一种简单直观的检验方法,但还必须通过统计检验。下面介绍假设检验法:

一元线性回归模型的评价检验分为拟合优度检验和方程的显著性检验,它是利用统计

如何对市场调研问卷的数据进行预处理

如何对市场调研问卷的数据进行预处理 市场调研问卷数据的预处理是整个市场调研工作的重要环节,如果预处理做得不好,就会使有问题的问卷进入后面的数据分析环节,对最终结果产生严重影响。 一、信度检验 1.信度分析简介 信度,即信任度,是指问卷数据的可信任程度。信度是保证问卷质量的重要手段,严谨的问卷分析通常会采用信度分析筛选部分数据。 α值是信度分析中的一个重要指标,它代指0~1的某个数值,如果α值小于0.7,该批次问卷就应当剔除或是进行处理;如果大于0.9,则说明信度很高,可以用于数据分析;如果位于0.7~0.9,则要根据具体情况进行判定。如表1所示。 α值意义 >0.9信度非常好 >0.8信度可以接受 >0.7需要重大修订但是可以接受 <0.7放弃 2.信度分析示例 操作过程 下面介绍的是一个信度分析的案例,其操作过程为:首先打开信度分析文件,可以看到该文件的结构很简单,一共包含10个题目,问卷的份数是102份。然后进入SPSS的“分析”模块,找到“度量”下面的“可靠性分析”,将这十个题目都选进去。 在接下来的统计量中,首先看平均值、方差和协方差等,为了消除这些变量的扰动,可以选择要或者不要这些相关的量,另外ANOVA(单音数方差分析)是分析两个变量之间有无关系的重要指标,一般选择要,但在这里可以不要,其他一些生僻的量值一般不要。描述性在多数情况下需要保留,因为模型的输出结果会有一些描述,因此应当选中项、度量和描述性,然后“确定”,这时SPSS输出的结果就会比较清楚。 结果解读 案例处理汇总后,SPSS输出的结果如图1所示。

图1 信度分析结果 由图1可知,案例中调查问卷的有效数据是102,已排除数是0,说明数据都是有效的,在这里如果某个问卷有缺失值,就会被模型自动删除,然后显示出已排除的问卷数。在信度分析中,可以看到Alpha值是0.881,根据前文的判定标准,这一数值接近0.9,可以通过。在图右下方部分有均值、方差、相关性等多个项目,这主要看最后的“项已删除的Alpha值”,该项目表示的是删除相应项目后整个问卷数据信度的变动情况,可以看出题目1、题目2和题目6对应的数值高于0.881,表明删除这三个题目后整个问卷的Alpha值会上升,为了确保整个调查的严谨性,应当将这三个题目删除。 二、剔除废卷 删除废卷大致有三种方法:根据缺失值剔除、根据重复选项剔除、根据逻辑关系剔除。 1.根据缺失值剔除 缺失值的成因 在市场调查中,即使有非常严格的质量控制,在问卷回收后仍然会出现缺项、漏项,这种情况在涉及敏感性问题的调查中尤其突出,缺失值的占比甚至会达到10%以上。之所以会出现这种现象,主要有以下原因:一是受访者对于疾病、收入等隐私问题选择跳过不答,二是受访者由于粗心大意而漏掉某些题目等。 缺失值的处理 在处理缺失值时,有些人会选择在SPSS或Excel中将其所在的行直接删除。事实上,不能简单地删除缺失值所在的行,否则会影响整个问卷的质量。这是因为在该行中除了缺失的数据以外,其他数据仍旧是有效的,包含许多有用信息,将其全部删除就等于损失了这部分信息。 在实际操作中,缺失值的处理主要有以下方式,如图2所示。

第三章 空间数据采集与处理练习..

一、单选题 1、对于离散空间最佳的内插方法 是: A.整体内插法 B.局部内插法 C.移动拟合法 D.邻近元法 2、下列能进行地图数字化的设备 是: A.打印机 B.手扶跟踪数字化仪 C.主 机 D.硬盘 3、有关数据处理的叙述错误的 是: A.数据处理是实现空间数据有序化的必要过程 B.数据处理是检验数据质量的关键环节 C.数据处理是实现数据共享的关键步骤 D.数据处理是对地图数字化前的预处理 4、邻近元法 是: A.离散空间数据内插的方法 B.连续空间内插的方法 C.生成DEM的一种方法 D.生成DTM的一种方法 5、一般用于模拟大范围内变化的内插技术是: A.邻近元法 B.整体拟合技术 C.局部拟合技术 D.移动拟合法 6、在地理数据采集中,手工方式主要是用于录入: A.属性数据 B.地图数据 C.影象数 据 D.DTM数据

7、要保证GIS中数据的现势性必须实时进行: A.数据编辑 B.数据变换 C.数据更 新 D.数据匹配 8、下列属于地图投影变换方法的 是: A.正解变换 B.平移变换 C.空间变 换 D.旋转变换 9、以信息损失为代价换取空间数据容量的压缩方法是: A.压缩软件 B.消冗处理 C.特征点筛选 法 D.压缩编码技术 10、表达现实世界空间变化的三个基本要素是。 A. 空间位置、专题特征、时间 B. 空间位置、专题特征、属性 C. 空间特点、变化趋势、属性 D. 空间特点、变化趋势、时间 11、以下哪种不属于数据采集的方式: A. 手工方式 B.扫描方式 C.投影方 式 D.数据通讯方式 12、以下不属于地图投影变换方法的是: A. 正解变换 B.平移变换 C.数值变 换 D.反解变换 13、以下不属于按照空间数据元数据描述对象分类的是: A. 实体元数据 B.属性元数据 C.数据层元数据 D. 应用层元数据 14、以下按照空间数据元数据的作用分类的是: A. 实体元数据 B.属性元数据 C. 说明元数据 D. 分类元数据 15、以下不属于遥感数据误差的是: A. 数字化误差 B.数据预处理误差 C. 数据转换误差 D. 人工判读误差

基于海量数据传输方式及融合研究

基于海量数据传输方式及融合研究 摘要本文简要的论述了海量数据传输方式及融合技术,将电力大数据通过高效、快速、安全的进行传输,以分布式消息机制进行数据交互和传输,从而达到数据快速交付及应用,满足不同业务层级人员的数据需求。基于以上的目标本文主要对数据传输技术和融合技术进行论述。 关键词电力;微服务;海量数据;技术难点;数据接口服务;文件传输接口;数据交互技术 Research on mass data transmission and fusion zhangxinyang,chenda The Information Centre of Yunnan power grid limited liability company,Kunming 650217 Abstract This paper briefly discusses the massive data transmission and fusion technology,the power of big data in an efficient,fast and secure transmission of data to the micro application services,so as to achieve rapid delivery of data and application,to meet the different levels of staff business data needs. Based on the above objectives,this paper mainly discusses the data transmission technology and fusion technology. Key words Electric power;Micro service;Massive data;Technical difficulties;Data interface service;File interface service;Data delivery technology 1 概述 电力行业在海量数据采集方面,目前着重单一领域的数据采集,电网及设备的状态运行数据、管理类数据、在线监测数据以及用户用电计量数据都未能进行数据统一规划,另外,针对外部的气象信息、宏观经济、用电舆情等数据也未纳入统一。 存在单一系统主数据完整性不足,各系统间数据单独采集、分散存储、独立应用等问题。 数据存储技术落后。目前面向结构化数据存储的关系型数据库已经不能满足相互电力大数据快速访问、大规模数据分析的需求,较难支撑电力业务的更专业应用需求。针对海量状态监测、用电计量等准实时数据,基于原有存储技术的落后都不能实现永久存储,电网中大量的历史数据都只能被定期转存并逐步清理,没有发挥出更多的价值[1]。

问卷调查表数据分析

成果3:问卷调查数据分析 在校大学生创业认知意识问卷调查数据分析 此次问卷,我们现在本校实行了100份,发现问题后对问卷进行了改进和完善,形成最终问卷。后四人分成两组,分别到仙林九大高校各分发200份。除了本校试行的100份外,本次调查共发放问卷1800份,回收有效问卷1650,有效率91.7%。以下是数据分析: 本科一年级数据分析 1.现在的您是否有创业的打算?() A.已经成功创业 B.已经进行创业 C. 考虑过 D. 完全没有 从图中可以看出:考虑过创业的学生很多,其中男生比例为64.89%,女生的比例为56.99%.在其中创业成功的和正在创业的比例不足5%,女生的比例为0%。这说明绝大数大学生只是有创业的想法,并没有把想法付诸于实践。也有很多学生没有创业的打算,其中男生比例为30.85%,女生为43.01%。大学生的创业意识也是需要加强。 2.如果您在进行创业,那么您创业的目的是什么?() A.满足兴趣爱好 B.助于成长、自我提升 C.成才的一种方式 D.赚钱 由图可以看出,大学生创业的主要目的是助于成长、自我提升和赚钱。其中选择助于成长、自我提升的男生为38.95%,女生为48.68%。选择赚钱的男生为30.53%,女生为34.21%。大学生创业不仅仅是为了赚钱,更多的是为了助于成长和自我提升。只有少部分人创业是满足兴趣爱好。 3.如果您有创业的想法,是来源于()

A.自身意愿 B.家庭影响 C.社会影响 D.朋友或名人的影响 由图可以看出,大一新生的创业想法大多来源自身,其中男生的比例为45.83%,女生为41.05%,其次的是来自于社会的影响,其中男生的比例为25.00%,女生为30.53%。而家庭对创业的想法影响很小。 4.您认为在校大学生创业相对于其它社会人士创业的优势是什么?() A. 学习能力强 B. 年轻有活力,敢于拼搏 C. 有创新精神 D.思想观念与时俱进 由图可以看出,在校大学生创业相对于其他社会人士创业的优势是年轻有活力、敢于拼搏。其中男生的比例为42.61%,女生的比例为51.79%。其余学习能力强、创新精神、思想观念与时俱进也是在校大学生创业的优势。 5.你认为自主创业要求在校大学生具备哪些方面的能力?() A. 较好的专业知识 B.组建优质的创业团队 C.开拓创新的精神 D.广泛的人际关系 E.敏锐的商机捕捉力 由此图可以看出,优质团队、专业知识、创新精神、人际关系以及商机的捕捉力在创业的过程之中都是比较重要的,他们所占的比重份额是不相上下的,一方面也可以看出如果这些想创业的学生如果真的创业的话,也会绝大部分的从这些方面着手准备。而这些方面刚好也是与时代所提倡的全面性人才的理念相匹配的。 6.如果创业,那么您的创业资本来自哪里?() A.通过兼职或参加创业比赛 B. 朋友、同学的帮助 C.父母、长辈的资金支持 D. 银行贷款及政府补助

空间数据分析模型

第7 章空间数据分析模型 7.1 空间数据 按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。 点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。 线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。 面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。 真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。 在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面(特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。 7.2 空间数据分析 空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。 1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。 2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。 3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。 4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。 7.3 空间数据分析的一些基本问题 空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003)。

空间数据分析

空间数据分析报告 —使用Moran's I统计法实现空间自相关的测度1、实验目的 (1)理解空间自相关的概念和测度方法。 (2)熟悉ArcGIS的基本操作,用Moran's I统计法实现空间自相关的测度。2、实验原理 2.1空间自相关 空间自相关的概念来自于时间序列的自相关,所描述的是在空间域中位置S 上的变量与其邻近位置Sj上同一变量的相关性。对于任何空间变量(属性)Z,空间自相关测度的是Z的近邻值对于Z相似或不相似的程度。如果紧邻位置上相互间的数值接近,我们说空间模式表现出的是正空间自相关;如果相互间的数值不接近,我们说空间模式表现出的是负空间自相关。 2.2空间随机性 如果任意位置上观测的属性值不依赖于近邻位置上的属性值,我们说空间过程是随机的。 Hanning则从完全独立性的角度提出更为严格的定义,对于连续空间变量Y,若下式成立,则是空间独立的: 式中,n为研究区域中面积单元的数量。若变量时类型数据,则空间独立性的定义改写成 式中,a,b是变量的两个可能的类型,i≠j。 2.3Moran's I统计 Moran's I统计量是基于邻近面积单元上变量值的比较。如果研究区域中邻近面积单元具有相似的值,统计指示正的空间自相关;若邻近面积单元具有不相似的值,则表示可能存在强的负空间相关。

设研究区域中存在n 个面积单元,第i 个单位上的观测值记为y i ,观测变量在n 个单位中的均值记为y ,则Moran's I 定义为 ∑∑∑∑∑======n i n j ij n i n j ij n i W W n I 11 11j i 1 2i ) y -)(y y -(y )y -(y 式中,等号右边第二项∑∑==n 1i n 1j j i ij )y -)(y y -(y W 类似于方差,是最重要的项,事 实上这是一个协方差,邻接矩阵W 和) y -)(y y -(y j i 的乘积相当于规定)y -)(y y -(y j i 对邻接的单元进行计算,于是I 值的大小决定于i 和j 单元中的变量值对于均值的偏离符号,若在相邻的位置上,y i 和y j 是同号的,则I 为正;y i 和y j 是异号的, 则I 为负。在形式上Moran's I 与协变异图 {}{}u ?-)Z(s u ?-)Z(s N(h)1(h)C ?j i ∑=相联系。 Moran's I 指数的变化范围为(-1,1)。如果空间过程是不相关的,则I 的期望接近于0,当I 取负值时,一般表示负自相关,I 取正值,则表示正的自相关。用I 指数推断空间模式还必须与随机模式中的I 指数作比较。 通过使用Moran's I 工具,会返回Moran's I Index 值以及Z Score 值。如果Z score 值小于-1.96获大于1.96,那么返回的统计结果就是可采信值。如果Z score 为正且大于1.96,则分布为聚集的;如果Z score 为负且小于-1.96,则分布为离散的;其他情况可以看作随机分布。 3、实验准备 3.1实验环境 本实验在Windows 7的操作系统环境中进行,使用ArcGis 9.3软件。 3.2实验数据 此次实习提供的数据为以湖北省为目标区域的bount.dbf 文件。.dbf 数据中包括第一产业增加值,第二产业增加值万元,小学在校学生数,医院、卫生院床位数,乡村人口万人,油料产量,城乡居民储蓄存款余额,棉花产量,地方财政一般预算收入,年末总人口(万人),粮食产量,普通中学在校生数,肉类总产量,规模以上工业总产值现价(万元)等属性,作为分析的对象。

(重点学习)海量数据处理方法总结

海量数据处理方法总结 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu,google,腾讯这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 1 Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集。 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是counting Bloom filter,用一个counter数组代替位数组,就可以支持删除了。 还有一个比较重要的问题,如何根据输入元素个数n,确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下,m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些,因为还要保证bit 数组里至少一半为0,则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。 举个例子我们假设错误率为0.01,则此时m应大概是n的13倍。这样k大概是8个。 注意这里m与n的单位不同,m是bit为单位,而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。 扩展: Bloom filter将集合中的元素映射到位数组中,用k(k为哈希函数个数)个映射位是否全1表示元素在不在这个集合中。Counting bloom filter(CBF)将位数组中的每一位扩展为

大学生调查问卷数据分析

大学生关于阅读调查问卷数据分析 本次问卷调查,我们总共发放100份,回收有效问卷61份,有效率为61%。以下是我们对本次调查问卷的结果分析: 一. 结果统计与分析 1.你的性别是()(单选) A.男 B.女 从图中可以看出,女生的人数比较多,说明了女生在平时的生活中,较喜欢阅读,她们更愿意做问卷调查。 2.你现在是大几()(单选)A.大一B.大二C.大三D.大四 男女 从上面的图当中可以得到的结论是:男生的调查问卷中,大三的人数比较多,一方面说明了本次调查文卷的不足,人员的年级分配上的不均衡,这样的调查问卷没有说服性;另一方面,男生当中,喜欢阅读的人数主要集中在大三。而在女生的调查问卷中,大二的人数占了46%,大三的占了36%。所以,得出的结论是男生当中,喜欢阅读的主要是大三的学生,在女生当中,喜欢阅读的是大二的学生。 3.你喜欢阅读吗?() A.很喜欢 B.喜欢 C.一般

由上面的数据可以看出,在大学生的平时生活中,大多数学生对于读书的追求度是很低的,很多人选的选项是“一般”,那么说明了学生们平时很少看书。除此之外,女生的读书人数,不管是“很喜欢”、“喜欢”、“一般”,女生的人数都多余男生,男生的读书量是很少的。 4.在学校,你每天的读书时间() A.1小时以下 B.1—2小时 C.2—4小时 D.4小时以下 E.基本不看 分析:从数据可以看出,大学生所花的读书时间在1~2小时占的比例在37%,而1小时以下的占39%,所以大多数学生在平时除了上专业课以外,所看的课外书很少。 5.你每周读课外书的数量() A.1本 B.2本 C.3本 D.少于1本

分析:从图表可以很明显的看出,52%的大学生是不看书的,对于课外知识的掌握是很匮乏的,大多数的学生在大学的时光当中,都是以玩游戏、谈恋爱、玩手机、玩电脑来度过自己的四年的大学时光,等到毕业时,才发现自己没有一技之长。所以,对于这次的调查问卷,我们就是秉着以知识改变命运的态度,通过数据的形式,让大家知道,我们的生活中,我们应该多读一些课外书,通过不断的阅读,不断增加自己的知识面,从而在未来的生活中,能够有所成就。 6.你阅读书籍主要通过的途径?() A. 书店或者网上购买 B.图书馆借阅 C. 网上浏览或者下载 D.其他 分析:从图中,我们可以看出,有25个人是通过网上浏览或者下载,有20个人是通过图书馆借阅看书,有11个人是通过书店或者网上购买,有5个人是通过其他方式进行阅读的。这也和现今的社会有关系,随着社会的发展和经济的增长,越来越多的人们对于网络的追求越来越普遍,对于电脑、手机的依赖越来越强,所以,对于当今时代的接班人,学生们通过网络读书已经成为一种时尚,所以,在调查中,通过网上浏览读书的是占大部分的。

第七章 数据分析的定性方法

第七数据分析的定性方法 数据分析是指对你所见、所闻、所读到的信息进行组织以便更好地理解所获信息。通过分析浙西数据,你可以描述状态、进行解释、提出假设、构建理论,并将你的结论与其他结论进行观念。而要实现这一目标,必须首先对所收集的资料进行分类、汇总、建模和解释。 学习目标: ?重述定性与定量数据分析方法的区别; ?理解项目研究过程中三个阶段上所采用的定性数据分析方法; ?了解并应用若干定性数据分析方法; ?讨论各种可用于定性数据分析的计算机程序。 7.1 引言 定性数据分析方法的发展,由原来的操作上的不严谨性而受到批判,如今的广泛运用。 7.2 定性与定量数据分析的异同 回顾: 定性分析与定量分析的异同 数据收集过程中——制定备忘录,思考基本概念单位或基本概念类型 分析过程中采用的方法——内容分析(content analysis)、持续比较分析(constant comparative analysis)、构建矩阵(matrix building)、绘制图表(mapping)、渐进法(successine approximation)、域分析(domain analysis)、分类构架(taxonomy building)、识别理想型(ideal type identification)、构建事件结构和创建模型(event-structure building and modeling )。 定量研究对数据及研究程序的要求——简明、清晰: a)使读者确信并能够证明报告中的结论 b)利用数据进行二次分析 c)使得研究大体上能够被重复 d)更容易发现欺骗或疏忽 7.3 定性分析 概念:把数据按照主题、概念或特征加以分类,进行分析。研究人员提出新概念、规范概念性定义并研究概念之间的关系。 麦尔斯和哈伯曼(1994)提出,数据分析包括三个方面:筛选数据、展示数据和归纳或证明

大数据处理技术参考架构

大数据处理技术参考架构 二〇一五年十二月

目录 1.背景 (1) 2.技术目标 (3) 3.技术要求 (3) 4.大数据处理业务场景 (4) 5.大数据处理技术对比 (6) 5.1. MPP与H ADOOP&S PARK技术对比 (6) 5.2. H ADOOP&S PARK技术优势 (9) 5.3. H ADOOP框架对比 (10) 5.4. H ADOOP使用情况 (11) 5.5. H ADOOP血缘关系 (12) 5.6. 行业大数据应用场景对比分析 (17) 6.大数据处理参考架构 (19) 6.1. 参考架构 (19) 6.2. 与J AVA EE体系对比 (21)

6.3. 参考架构运行状态 (21) 7.总结与思考 (22) 附录:名词解释 (25)

1.背景 随着大数据时代的到来,数据由海量拓展为多样,在注重计算速度的同时更加关注挖掘有价值的数据。以IOE体系为核心的数据计算和存储方式越来越不能满足目前大数据处理在性能和成本上的综合要求。为适应对大数据处理的要求,众多的分布式计算平台随之兴起,在对众多分布式计算平台进行权衡的同时,增强自主创新能力,以满足人民银行对信息技术安全可控的要求。 在核心应用自主研发、核心知识自主掌控的氛围下,保障大数据技术达到灵活可用的目标,确保数据和信息的有效、及时,确保信息系统的可靠、灵活。同时,充分的利用开源产品透明公开的关键信息,做到对技术细节的掌控和验证,开源产品的特点也更能够激发开发者的热情并推进技术的快速变革。 在“互联网+”的战略布局下,当利用信息通信技术把互联网和包括金融行业在内的相关行业结合起来时,能够更加合理和充分的利用大数据技术促进互联网金融的健康发展。当前互联网金融的格局中,由传统金融机构和非金融机构组成。传统金融机构的发展方向主要为传统金融业务的互联网创新以及电商化创新、手机APP服务等;非金融机构的发展方向则主要是指利用互联网技术进行金融运作的电子商务企业、P2P模式的网络借贷平台,众筹模式的网络投资平台或掌上理财服务,以及第三方支付平台等。在金融行业新兴业态下,为促进互联网金融的健康发展,为全面提升互联网金融服务能力和普惠水平,为有效防范互联网金融风险及其外溢效应而提供技术支撑。 在金融领域,新生业态层出不穷,金融机构日益多样化,金融资产的流动性

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一是事务处理型操作都是细粒度操作,每次事务处理涉及数据量都很小。 二是计算相对简单,一般只有少数几步操作组成,比如修改某行的某列; 三是事务型处理操作涉及数据的增、删、改、查,对事务完整性和数据一致性要求非常高。 四是事务性操作都是实时交互式操作,至少能在几秒内执行完成; 五是基于以上特点,索引是支撑事务型处理一个非常重要的技术。 在数据量和并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL 数据复制等)等高可用措施即可满足业务需求。 在数据量和并发交易量增加情况下,一般可以采用ORALCE RAC集群方式或者是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑。 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用的系统来解决本问题。

2 数据统计分析 数据统计主要是被各类企业通过分析自己的销售记录等企业日常的运营数据,以辅助企业管理层来进行运营决策。典型的使用场景有:周报表、月报表等固定时间提供给领导的各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应的营销策略等。 数据统计分析特点包括以下几点: 一是数据统计一般涉及大量数据的聚合运算,每次统计涉及数据量会比较大。二是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现。 三是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多的用户希望能做做到交互式实时统计; 传统的数据统计分析主要采用基于MPP并行数据库的数据仓库技术。主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析的结构来实现高性能的数据统计分析,以支持可以通过下钻和上卷操作,实现各种维度组合以及各种粒度的统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算的数据库仓库系统也成为一个发展趋势,例如SAP的HANA平台。 3 数据挖掘 数据挖掘主要是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中的规律和知识。

GIS原理与应用教案——第四章 空间数据的处理

第四章空间数据的处理 学习要求:掌握数据处理的基本内容、途径和算法。 §4.1 矢量数据拓扑关系的自动建立 矢量数据拓扑关系在空间数据的查询与分析中非常重要,矢量数据拓扑关系自动建立的算法是GIS中的关键算法之一,这里介绍其实现的基本步骤和要点: 一、链的组织 找出在链的中间相交,而不是在端点相交的情况,自动切成新链;把链按一定顺序存储,然后把链按顺序编号。 二、结点匹配 结点匹配是指把一定限差内的链的端点作为一个结点,其坐标值取多个端点的平均值。 三、检查多边形是否闭合 检查多边形是否闭合可以通过判断一条链的端点是否有与之匹配的端点来进行。 四、建立多边形 建立多边形是矢量数据自动拓扑中最关键的部分,由于其算法比较复杂。先介绍了几个基本概念:顺时针方向构多边形、最靠右边的链、多边形面积的计算,然后介绍其实现的过程。

五、岛的判断 论述多边形之间的一种关系。岛的判断即指找出多边形互相包含的情况,也即寻找多边形的连通边界。 六、确定多边形的属性 多边形以内点标识。内点的属性常赋于多边形。 §4.2 矢量数据的图形编辑 图形编辑是纠正数据采集错误的重要手段,其基本的功能要求是:具有友好的人机界面;具有对几何数据和属性编码的修改功能;具有分层显示和窗口功能。图形编辑的关键是点、线、面的捕捉。 一、点的捕捉 图形编辑是纠正数据采集错误的重要手段。点的捕捉就是计算机屏幕上进行图形编辑时如何根据光标的位置找到需要编辑的要素点。 1、点的捕捉 图4-2-1 图4-2-2

但是由于在计算d时需进行乘方运算,所以影响了搜索的速度,因此,把距离d的计算改为: 二、线的捕捉 线的捕捉就是计算机屏幕上进行图形编辑时如何根据光标的位置找到需要编辑的线。方法是计算点到直线的距离。 图4-2-3 图 4-2-4 图4-2-5 如图4-2-5所示,点S(x,y)到直线段(x 1,y 1 ),(x 2 ,y 2 )的距离d的计算公 式为:

问卷调查调查结果的处理

在全部调查结束后,要对来自各个方面的材料加以分类归纳,分析提炼,从而达到综合的目的;并最后获得比较明确的结论。对调查结果的处理,是整个调查研究中最重要的环节,一般的处理方式有:归纳法、对照法、计算法、图示法和编程处理法。 1.归纳法 这是由个别性前提得到一般性结论的逻辑推理方法。一般调查研究过程总是遵循这一逻辑程序的。如果作为个别事物的调查对象不断重复相同或相似的结果,那么,从中抽出的一班性结论大多是正确无误的。 课题实践(6)《矮生鸡冠花在试管中开花的研究》。这是一个实验性调查研究课题,实施者对l号到4号四批种苗在试管中培育开花的过程加以观察调查,对其数据进行归纳,获得有关反映矮生鸡冠试管开花的一系列资料,归结出矮生鸡冠花试管开花的规律性的结论。2.对照法 对照法亦即比较法,是将调查来的两组或两组以上的材料加以对照比较,从中获得有关结论。 课题实践(7)《通过在美经历看中美两国孩子的区别》。该课题将调查的有关资料加以对照分析,从处事,冒险精神、环保意识、礼仪及自理能力等五个方面比较两国孩子的优缺点,并提出相互补救的见解。 3.计算法 这是一种处理调查结果的数学计算方法。许多科技领域的调查研究常常采用这种计算方法。 课题实践(8)《关于水泥28天抗压强度值的预测》。该课题就是通过实地调查研究,对上海白水泥厂开发的4725高标号水泥的抗压强度加以测试,随机抽取调查所得的最近60个水泥快速强度值及其对应28天抗压强度值数据,采用数学计算方法获取结论,取得用计算机实现自定预测方法的成功。 4.图示法 用图示表达调查结果,最具直观效应。课题实践(9)《太阳黑子运动对上海地区气候的影响》,该课题将1873一1999年期间太阳黑子的相对数与上海地区降水、气温、气压等的变化情况用一组图(图4-l一图4-3)展示,结论十分清晰。

调查问卷数据处理

调查问卷数据处理 信息汇总:发出50份问卷,收回45份有效问卷。 调查对象:甘洒中学学生 数据统计分析 题1:你有经常去图书馆借书吗? A 经常去 B 偶尔去 C 从来不去 根据左图,我们可以得到如下信息:学生比较少去图书馆借书,可见,图书馆利用率不高。

题2:你认为图书馆的书种类齐全吗? A 齐全 B 不太齐全 C 不齐全 6% 88% 6% 题3:你认为图书馆的书籍对你的学习有用处吗? A 很有用处 B 不太有用处 C 没用处 根据左图,我们可以得到如下信息:有88%的学生认为图书馆的书籍不够齐全。 根据左图,我们可以得到如下信息:大部分的学生都认为学校图书馆的书对自己的学习是有帮助的,可见图书馆的藏书是符合中学生需求。

题4: 你对学校图书馆有什么不满意的地方? (可多选) A 藏书不足 B 借书难 C 图书馆管理员态度不好 D 其他 ___________ 题5:你认为学校图书馆可以有哪些改进措施? (可多选) A 对图书进行分类 B 采用科学有效的书籍登记方法 C 完善图书管理制度 D 其他______________ 根据左图,我们可以得到如下信息:学生最不满意的方面就是藏书不足;其次,是管理员的态度存在某些方面的不足;再次,借书难也是一个普遍存在的问题。由此可见,藏书不足是图书馆目前亟需解决的问题。 根据左图,我们可以得到如下信息:多数学生都认为,图书馆首要的是对图书进行分类,便于借阅书籍;另外,分别有11%和14%的学生认为可以采用如下的改进措施:采用科学的书籍登记方法和制定先进的管理制度。

题6: 你熟悉图书馆的规章制度吗? A 非常熟悉 B 基本熟悉 C 不清楚 3% 题7:你不去图书馆借书的原因是什么? A 没有想要的书 B 没有多余的时间看图书馆的书 C 押金太 D 其他___________ 根据左图,我们可以得到如下信息:大多数的学生对图书馆的规章制度不太熟悉 根据左图,我们可以得到如下信息:学生不去图书馆借书的原因有如下方面:主要是由于学生没多余的时间看书,另外,有13%的学生认为借书的押金太高了。

基于海量数据的数据分析方案设计

基于海量数据的数据分析方案设计 data analysis program design based on mass data 摘要:随着互联网,移动互联网和物联网的发展,谁也无法否认,我们来到了一个海量数据的时代。随着数据积累的越来越多,现在许多行业大多面临基于海量数据的分析问题,该文从基于海量数据挖掘的分析方法出发,利用河南省2005到2009年交通事故的数据,设计了一个数据分析方案。 关键词:海量数据,数据挖掘,回归模型,方案 Abstract: with the development of Internet, mobile Internet and development of Internet of things, nobody can deny that we come to a massive data era. As data accumulate more and more, many industries are facing problems based on large amounts of data analysis . This paper ibased on the analysis of mass data mining method of Henan province from 2005 to 2009, using the data of traffic accidents, designes a data analysis program. Key words: mass data, data mining, regression model, scheme 一、引言 随着信息技术的发展,人们积累的数据越来越多。事实上,数据本身是没有意义的,只有用以进行分析处理才真正起到作用。因此,可以说激增的数据背后更重要的是隐含的信息,人们希望能够对这些数据进行更高层次的分析,以便更好地利用这些数据。 海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。 在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:数据量过大,数据中什么情况都可能存在;软硬件要求高,系统资源占用过高;要求很高的处理方法和技巧。 基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处

第四章 空间数据的处理及投影变换

练习 4 1.空间数据处理(融合、合并、剪切、交叉、合并) 2.设置地图投影及投影变换 空间数据处理 (1) 第1步裁剪要素 (2) 第2步拼接图层 (3) 第3步要素融合 (4) 第4步图层合并 (6) 第5步图层相交 (7) 定义地图投影 (9) 第6步定义投影 (9) 第7步投影变换――地理坐标系->北京1954坐标系转换->西安80坐标系 (10) 补充:图层相减,计算面积 (11) 空间数据处理 ●数据:云南县界.shp; Clip.shp西双版纳森林覆盖.shp 西双版纳县界.shp ●步骤: 将所需要的数据下载后,解压到到 e:\gisdata, 设定工作区:在ArcMap中 执行菜单命令:<工具>-><选项>,在“空间处理”选项页里,点 击“环境变量”按钮,在环境变量对话框 中的常规设置选项中,设定“临时工作空 间”为 e:\gisdata

第1步 裁剪要素 ◆在ArcMap中,添数据GISDATA\云南县界.shp,添加数据GISDATA\Clip.shp (Clip 中有四 个要素) ◆激活Clip图层。选中Clip图层中的一个要素,注意确保不要选中“云南县界”中的要素! 点击打开ArcToolbox, 指定输出要素类路径及名称,这里请命名 为“云南县界_Clip1” 指定输入类:云南县界 指定剪切要素:Clip(必须是多边形要素)

依次选中Clip主题中其它三个要素,重复以上的操作步骤, 完成操作后将得到共四个图层(“云南县界_Clip1” , “云南县界_Clip2”,“云南县界_Clip3”,“云南县界_Clip4” )。 第2步 拼接图层 ◆在ArcMap中新建地图文档,加载你在剪切要素操作中得到的 四个图层 ◆点击打开ArcToolbox

调查问卷及数据分析

关于西安市电动自行车市场调研报告 时间:2012年4月24日 关于西安市电动自行车市场调查方案 西安市电动自行车市场调查方案 摘要:随着汽车数量的大幅增长,所造成的空气污染,噪音污染问题也愈加严 重,能源耗费问题亦不容忽视。于是,可降低环境污染并减少不必要资源浪费的电动自行车顺应环境保护、节约资源之需而产生,我选用抽样调查法,访谈法,观察法,对合格的问卷进行登记、使用spss数据分析法得出可供分析使用的初步计算结果,进而对调查结果作出准确描述和分析.为电动自行车行业创新做铺垫作用. 一、前言 我国GDP不断增长,居民收入日益提高,汽车在一般社会大众日常生活中所扮演的角色已由奢侈品转变为必须品,然而,随着汽车数量的大幅增长,所造成的空气污染,噪音污染问题也愈加严重,能源耗费问题亦不容忽视。于是,可降低环境污染并减少不必要资源浪费的电动自行车顺应环境保护、节约资源之需而产生,目前在国内几个大城市蓬勃发展起来。生产电动自行车的厂家也日益多起来,竞争也日趋激烈。 二、调查目的 目前,大多数消费者提倡绿色环保消费观念,电动自行车既可以降低环境污染又能减少不必要的资源浪费,因此为了了解电动自行车使用者与潜在使用者的需求与建议,以作为研究和改进现有电动自行车的有效参照,研发新的电动自行能更大限度的满足消费者,为电动自行车这个行业创新提供切实可行的资料,本

次组织针对西安市消费者和经销商进行深度调查。 三、调查内容 首先,从消费者的基本信息(性别,年龄,职业,收入)等为切入点,了解消费者的动机需求,购买行为,了解到消费者对电动自行车的要求,从而为爱玛电动车提供大量资料,尽可能的为消费者提供满意的产品,增加其竞争力,从而进一步扩大爱玛电动自行车的市场份额. 宏观环境方面: 经济环境:我国居民收入水平普遍提高,拥有足够的购买力,经销商,生产厂家有足够的资本生产消费者需要的产品. 社会文化环境:政府大力引导广大消费者提倡绿色环保消费观,越来越多的人也积极响应并崇尚绿色环保理念加之我国资源匮乏,因此节能减排势在必行. 科技方面:我国科技发达,科技作为核心,为电动自行车的研发和创新,更新换代提供技术保障. 微观环境方面: 市场需求:作为陕西省省会城市-西安,人口密集,受教育程度较高,能够积极响应绿色消费观念,家庭人数较多,从一定意义上增加了消费者对电动自行车的需求. 购买动机:消费者购买电动自行车会受很多因素影响:上下班路途较远且经常堵车,接送孩子上下学,经济实惠等原因. 购买行为:由于市场上,电动自行车的品牌种类很多,竞争非常激烈,了解消费者在哪里购买,通过设么样的方式购买,又没有人认牌购买倾向,买哪个品牌等此类信息,作为新产品的创新至关重要. 市场状况:对电动自行车市场份额的一个大致了解,以及自身发展状况(优势与不足)等进行深入分析.目前电动自行车市场供应源是否充沛,供应能力怎样,供应范围大致都有哪里. 销售模式:对目前电动自行车经销商的调查,例如是否定期促销,或者是节假日促销,有无人员推销,宣传模式如何等. 四、调研方式、方法 采用问卷调查、人员定点访问、抽样调查的调查方式 抽样调查:由于西安市人口密集,此调研时间较短,因此针对西安市消费者采取抽样调查法; 访谈法:针对西安市电动自行车经销商; 观察法:节假日去电动自行车卖场观察其促销模式 五、问卷发放数量与投放方式 按样本数量发放问卷200份,采用送发式问卷发放形式和网上问卷方式. 六、资料整理与分析的方法 对合格的问卷进行登记、使用spss数据分析法得出可供分析使用的初步计算结果,进而对调查结果作出准确描述及初步分析,为进一步的分析提供依据。 七、调研时间

相关文档
相关文档 最新文档