当前位置: 首页 » 行业资讯 » 法规 » 正文

测量概念——信度、效度、尺度

42023-10-01 07:51:36

Quality evaluation of methods and measuresŸ 效度(Validity):方法是否准确地测量了它所希望测量的内容。Ÿ 信度(Reliability):不同条件下得到的测量结果是否一致或稳定。Ÿ 普遍性(Generalizability):方法在其他领域、情境、人群等方面的推广效果。Ÿ 干扰性(Non-reactivity):方法对实验环境和被试的干扰或

标签: sdf

Quality evaluation of methods and measures

Ÿ 效度(Validity):方法是否准确地测量了它所希望测量的内容。

Ÿ 信度(Reliability):不同条件下得到的测量结果是否一致或稳定。

Ÿ 普遍性(Generalizability):方法在其他领域、情境、人群等方面的推广效果。

Ÿ 干扰性(Non-reactivity):方法对实验环境和被试的干扰或被试对测量方法的反应。

Ÿ 灵敏度(Sensitivity):对于测量结果的表现力和呈现的细节水平。

Ÿ 可行性(Feasibility of use)、合理性(Acceptability and ethics)、资源需求(Resources):

Construct

Ÿ 构念是指不能直接观察到的概念或特征,但可以通过观察与之相关的其他指标来衡量。

Ÿ 构念可以是个体的特征,例如智力、肥胖、工作满意度或抑郁;它们也可以是适用于组织或社会团体的更广泛的概念,例如性别平等、企业社会责任或言论自由。

Ÿ 案例:没有可以直接衡量的客观、可观察的实体,称为“抑郁症”。但根据现有的心理学研究和理论,我们可以根据一系列症状和指标来衡量抑郁症,例如低自信和低能量水平。

Validity

(1)建构效度(construct validity)

Ÿ 目的是确保测量方法与要测量的构念相匹配;要求对每个特征的测量背后都有足够的理论支持;内容效度、效标效度都可看作是建构效度的证据形式。

Ÿ 聚合效度(convergent validity):该测量方法度量/代表它应该度量/代表的概念的程度;如该方法与两个或两个以上测量同一(相似)概念的不同测量方法的结果的一致程度。

Ÿ 区别效度(divergent validity):该测量方法度量/代表它不应度量/代表的概念的程度;如该方法与测量其他不同(无关或相反)概念的方法的关联程度。

(2)实验效度(experimental validity)

Ÿ 内部效度(internal validity):实验所提供的自变量与因变量之间因果关系的明确程度;若研究结果有且只有一种解释,则该研究的内部效度就高,若不止一种解释则较低。

Ÿ 外部效度(external validity):指脱离研究情境以后,研究结果还能成立的程度;每项研究都是在特定条件(时间、地点、人群、测量技术等)下进行的,但研究者通常期望研究结果不是特异的,而是可以推广到研究情境之外。

(3)效标效度(criterion validity)

Ÿ 又称效标关联效度、实证效度,指测验分数与效度标准之间的相关程度(用相关系数表示,能够找到真实效标是分析的关键),是独立于测验之外,能够体现测验目的的标准。

Ÿ 同时效度(concurrent validity):新测量方法是否与现有的“公认的/公众所接受的”测量方法(“金标准”)的测量结果相一致(可看作聚合效度的一种有限形式)。

Ÿ 预测效度(predictive validity):测量结果对于真实效标的预测效果,通常需要过一段时间才能收集到预测效度的效标资料,如工作能力评价问卷对员工实际工作能力的预测等。

(4)内容效度(content validity)

Ÿ 也称逻辑效度(logical validity),评估测试是否代表了建构的所有方面,如果缺少某些方面(全面性)或包含不相关的方面(针对性),则有效性受到威胁。

Ÿ 表面效度(face validity):指测试内容在表面上看起来有多合适,是一种更加非正式和主观的评估,也通常被认为是最弱的效度形式。表面效度并非越高越好,有些实验或测量需要隐藏本身的测量意图。

Ÿ 表征效度(representation validity):衡量构念或抽象概念转化为可观察度量的效果,主要关注两个问题:子构念(若存在分解)是否正确地定义了主构念?观察量是否正确地解释、度量或测试了构念量?

(5)人口效度(population validity)

Ÿ 评估样本是否可以代表(或推广到)整个总体,以及抽样方法是否可以接受的程度。

(6)生态效度(ecological validity)

Ÿ 评估测试环境与用户实际作业环境相匹配的程度,或测试环境对被试行为的影响程度。

Reliability

Ÿ 重测信度(test-retest reliability):指在不同时间但相同测量条件下进行同一测量的连续测量结果之间的一致程度;不完美的重测信度会导致重测变异性,这种变异性可能是由例如个体内变异性和观察者间变异性引起的。

Ÿ 评估者间信度(inter-rater reliability):指不同独立观察者对同一现象进行评分、编码或评估的一致程度,常用Cohen’s kappa、Scott’s pi、Krippendorffs alpha等指标来度量。

Ÿ 方法间信度(inter-method reliability):评估当使用的方法或工具(instrument reliability)发生变化时测试分数的一致性程度,在评估时允许排除评估者间的不一致性。

Ÿ 内部一致性信度(internal consistency reliability):评估测试中条目间结果的一致性,常用Cronbach’s alpha进行衡;非常高的alpha不一定是可取的,因为这表明某些项目可能是多余的;设计可靠工具的目标是使相似条目的分数相关,但每个条目也必须提供一些独特的信息。

Scales

测量尺度(scale of measure)或度量水平(level of measure)是测量所依据的能反映测量客体特征和属性的标准。不同测量尺度所包含的信息水平不同,对其所得数据能进行的数学和统计操作也不同。从测量和定量研究的角度,常用的测量尺度可分为四类:

Ÿ 名义尺度(nominal scale):也称定类尺度或类别尺度,是将调查对象分类,标以各种名称以确定其类别的方法。实质上是一种分类体系,故其数字本身并不具备量的意义,只是不同属性的代号而已。

Ÿ 顺序尺度(ordinal scale):也称定序尺度或等级尺度,是对测量对象的属性或特征进行类属鉴别并能进行大小比较的一种方法。数字本身仅代表该属性的顺序或等级关系,但无法衡量不同等级次序之间的距离或差异程度。

Ÿ 等距尺度(interval scale):也称定距尺度或区间尺度,是按照某一数量标志将总体划分为若干顺序排列的部分或组,并对相同数量或数量范围的总体单位进行计量的方法。由于这种尺度的每一间隔都是相等的,故等距尺度可以同时表征类别、顺序和不同类别间距离的差异程度。但由于不存在绝对的零点,故无法用来诠释程度上的差异。

Ÿ 等比尺度(ratio scale):也称比率尺度或比例尺度,是一种除有上述三种尺度的全部性质之外,还能测量不同变量之间的比例或比率关系的方法。其存在绝对的零点,故研究者可列出各类别间的倍数关系,如长度、身高、重量、体重等。

Reference

Wilson and Corlett (2005). evaluation of Human Work. Taylor & Francis. 3rd Edition.https://blog.csdn.net/qq_38029637/article/details/112787894https://www.scribbr.com/methodology/types-of-validity/https://explorable.com/ecological-validity?gid=1579https://baike.baidu.comhttps://en.wikipedia.orghttps://www.bilibili.com/read/cv11466610

免责声明:本网转载合作媒体、机构或其他网站的公开信息,并不意味着赞同其观点或证实其内容的真实性,信息仅供参考,不作为交易和服务的根据。转载文章版权归原作者所有,如有侵权或其它问题请及时告之,本网将及时修改或删除。凡以任何方式登录本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。联系本站网管,谢谢。

合作