㈠ 统计中的样本规模怎样确定
确定样本容量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。从定性的方面考虑样本量的大小,其考虑因素有:决策的重要性,调研的性质,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本;探索性研究,样本量一般较小,而结论性研究如描述性的调查,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些,以减少抽样误差的累积效应;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。针对子样本分析比只限于对总样本分析,所需样本量要大得多。
具体确定样本量还有相应的统计学公式,不同的抽样方法对应不同的公式。根据样本量计算公式,我们知道,样本量的大小不取决于总体的多少,而取决于(1) 研究对象的变化程度;(2) 所要求或允许的误差大小(即精度要求);(3) 要求推断的置信程度。也就是说,当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。因此,如果不同城市分别进行推断时,大城市多抽,小城市少抽这种说法原则上是不对的。在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。
㈡ 关于统计学样本标准差与总体标准差的概念,望高手指教!感谢了
方差方差和标准差:
样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;
样本方差的算术平方根叫做样本标准差。
样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
数学上一般用E{[X-E(X)]^2}来度量随机变量X与其均值E(X)的偏离程度,称为X的方差。
定义
设X是一个随机变量,若E{[X-E(X)]^2}存在,则称E{[X-E(X)]^2}为X的方差,记为D(X)或DX。即D(X)=E{[X-E(X)]^2},而σ(X)=D(X)^0.5(与X有相同的量纲)称为标准差或均方差。
由方差的定义可以得到以下常用计算公式:
D(X)=E(X^2)-[E(X)]^2
方差的几个重要性质(设一下各个方差均存在)。
(1)设c是常数,则D(c)=0。
(2)设X是随机变量,c是常数,则有D(cX)=c^2D(X)。
(3)设X,Y是两个相互独立的随机变量,则D(X+Y)=D(X)+D(Y)。
(4)D(X)=0的充分必要条件是X以概率为1取常数值c,即P{X=c}=1,其中E(X)=c。
标准差 标准差(Standard Deviation)
各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根。用σ表示。因此,标准差也是一种平均数
标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。
例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。 这两组的平均数都是70,但A组的标准差为17.08分,B组的标准差为2.16分,说明A组学生之间的差距要比B组学生之间的差距大得多。
㈢ 样本的统计学概念
总体中抽取的所要考查的元素总称,样本中个体的多少叫样本容量。
如作水质检验时从井水或河水中采的水样,临床化验中从病人身上采的血液或其它活体组织标本,是样本;而整个一口井或一条河的某一段所有的水,某病人全身所有的血液或某个组织器官,则是总体。这类总体是具体存在的,但另有些总体却是假想的,只是理论上存在的一个范围。例如试验某一治疗流感新药的疗效,最初接受治疗的一批流感患者,不论数量多少,都只是一个样本。若该药疗效得到肯定,从而加以推广,那么此后凡在相同条件下接受该药治疗的所有流感患者,都属于这个总体。可是当初试用时,这个总体还并不存在,是假想的。
总体包含的观察单位通常是大量的甚至是无限的,在实际工作中,一般不可能或不必要对每个观察单位逐一进行研究。我们只能从中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。如上述某新药治疗流感例子,试验治疗的只是少数有限的病人,而结论却要推广到全体,得出一个该药对所有流感患者之疗效的规律性的认识。所以说,观察样本的目的在于推论总体,这就是样本与总体的辩证关系。
一般的,样本的内容是带着单位的,例如:调查某中学300名中学生的视力情况中,样本是300名中学生的视力情况,而样本容量则为300.
㈣ 统计里的样本和样本容量的概念是森么
样本是指总体中复所抽取的制一部分个体
样本容量是指样本中个体的数目
比如:
某校有2000名学生,5年级有50人,在五年级调查,根据五年级情况,统计该校学生近视眼情况
这里:
某校学生为总体
2000中每个人为个体
五年级为样本
50为样本容量
㈤ 这个乡村咋界定的 是不是按照国家统计局城乡统一划分代码
乡村界定的是按照国家统计局城乡统一划分代码,为了便于城乡分类统计,国家统计局统一制定了城乡划分标准,并规定了对应的城乡分类代码,代码是划分城乡的重要标识和依据
㈥ 统计用城乡划分代码可否作为划分城镇居民和农村居民的标准
城镇低保标准
㈦ 统计学中的有一个 样本量 这个是如何计算出来的
公式:
(1)重复抽样方式下:
变量总体重复抽样计算公式:
(7)统计样本城乡居民界定扩展阅读
在统计中常用极差来刻画一组数据的离散程度,以及反映的是变量分布的变异范围和离散幅度,在总体中任何两个单位的标准值之差都不能超过极差。同时,它能体现一组数据波动的范围。极差越大,离散程度越大,反之,离散程度越小。
极差只指明了测定值的最大离散范围,而未能利用全部测量值的信息,不能细致地反映测量值彼此相符合的程度,极差是总体标准偏差的有偏估计值,当乘以校正系数之后,可以作为总体标准偏差的无偏估计值。
它的优点是计算简单,含义直观,运用方便,故在数据统计处理中仍有着相当广泛的应用。 但是,它仅仅取决于两个极端值的水平,不能反映其间的变量分布情况,同时易受极端值的影响。
㈧ 统计学中,总体、样本和个体定义及其关系
1,样本是从总体中抽取的部分单位所组成的整体;2,样本具有与整体同质的数量特征;3,可以通过了解样本的特征来估计总体的特征情况
㈨ 统计样本时M±SD是什么意思
M:mean是平均数;SD:standard deviation标准差;P:概率,在SPSS的统计图表里中,sig对应的值就是P值。
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。
如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。
(这并不是说如果变量间存在关联,可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。
(9)统计样本城乡居民界定扩展阅读
均值的计算在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时,多数作者会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的。
在数理统计学中,作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等。这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特征确定。
反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其总体的数学期望就是其算术平均值。
此时,可用样本的算术平均值描述随机变量的大小特征。如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。
在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则可用几何平均值描述该随机变量总体的大小。此时,就可以计算变量的几何平均值。
如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。退而求其次,此时可用中位数来描述变量的大小特征。