×

离散 实例 模型 选择 简介

离散选择模型DCM简介及R实例

jnlyseo998998 jnlyseo998998 发表于2023-04-19 02:06:02 浏览24 评论0

抢沙发发表评论

原创作者:林娴

前言

离散选择模型(discrete choice model, DCM)是一种解释或预测从一组两个或多个离散备选方案中进行选择的便利方法。在医学中可以在离散选择实验设计的基础上,通过模拟不同疫苗\治疗方案等的选择环境来测量不同人群的偏好,从而获得不同人群在不同条件下的偏好。DCM的常见模型包括二元Logit/Probit、多项Logit/Probit、条件Logit模型、混合Logit、分层贝叶斯等。

基本原理

离散选择模型以随机效用理论为基础,即被调查者 在面临 个方案的选择时,其对某种选择方案 的偏好可以用效用值 来形容。效用值 是一个未知函数,但在大多数应用为了计算方直接将其假设为线性函数:

为随机误差项,代表不可观测的效用; 为固定效用项,代表可观测的效用。在通常情况下可观测的效用 往往被表示为:

代表个体 选择方案 时 变量的取值; 为对应的系数。根据随机效应最大化原理,每位被调查者在面临两个或多个选项之间的选择时,会选择可以使自身效用最大的选项。影响每位被调查者进行选择的是方案 与对比方案 效用的相对差值,而不是各个方案效用的绝对大小。简单来说假设有两个方案 和 ,方案 被个体 选中的概率 等价于事件 > 的概率,即:

二元Logit模型

假设残差 和 均服从Gunmbel分布,且两者之间相互独立,则属于Logistic模型,被调查者 选择方案 的概率可以表示为:

当被调查者只有两种选择时,如是否接受疫苗,以 代表接受疫苗 , 代表不接受疫苗 ,则被调查者n选择接受疫苗的概率为:

而我们可以发现二元Logit模型与常说的logistic回归模型本质上是同一模型,只是表达方式不同,即logistic模型是离散选择模型的典型代表。二元Logit模型与logistic模型两者在实际应用场景和结果上区别不大,每个自变量的估计系数含义两者是一样的。在最开始Luce提出logistic模型后,McFadden等人在logistic模型的基础上进一步构建了离散选择模型相关理论体系,最终形成成熟的Logit模型。Logit模型更多应用在多种方案存在的情况下选择某种方案的概率,而logistics模型更多应用在流行病学中探索某种疾病的危险因素,根据危险因素预测某疾病的发生概率等。

多项logit模型

若在选择情境中存在多个选项,则被调查者在 个选项中选择第 个方案的概率也可以表达为:

多项Logit模型需要满足无关方案的独立性(independence of irrelevant alternatives),又称IIA假设, 即模型中各个可选项之间是独立的不相关的。两个选项被选中的概率之比只和这两项有关,当增加或剔除备选项,并不会对概率的比例产生影响。如果模型满足IIA假设时, 个分类的多项Logit模型本质上是以某一组为参照的 个两两配对的二元Logit模型。

展开全文

在实际应用中,IIA假设限制条件是很难满足的,而且多项Logit模型假设被调查者的偏好系数是固定值,忽略了被调查者偏好的差异性。如果Hausman检验发生不符合IIA假设时,需选择多项式Probit模型、混合Logit模型(随机参数Logit模型)等模型进行研究分析。

条件logit模型

当解释变量为方案相关的属性时,则被调查者在 个选项中选择第 个方案的概率也可以表达为:

条件Logit模型的估计方法与多项Logit 模型类似,但在条件Logit模型中,方案的一个属性 对于不同方案效应的影响是一致的的,系数 变化与方案无关。在条件Logit模型中自变量类型为随个体和方案而变的方案属性,在分析中数据集格式为几行数据对应一个样本,如有3个方案(mode=1,2,3)被调查者进行选择(choice=1,已选;choice=0,未选),3个方案对应不同消耗时间(time)和费用(price)数据集格式下图所示:

id

mode

choice

time

price

1

1

45

50

1

2

1

60

45

1

3

50

48

混合Logit模型

混合Logit模型又称随机参数Logit模型,它考虑了随机偏好差异,能处理更为复杂的相关性,不受限于IIA假设。一般模型中自变量类型包含了个人属性和随个体和方案而变的方案属性。在混合Logit模型中效用分为三部分,包括 固定效用项、 随机效用项和 误差项,具体效用表现形式为:

其中误差项 允许选择项之间存在相关性,满足个体选择偏好差异。 常见的分布形式有正态分布、对数正态分布、均匀分布等。可以根据不同的情形假设不同的分布形态。如对于无限多分类变量往往假设服从正态分布;均匀分布适用性广,对于参数的符号等没有要求,尤为适用于二分类变量。混合Logit模型中选择概率为:

其中 指系数 分布的参数, │ 为某种分布的概率密度函数,即该模型的选择概率可以看作是多项Logit模型选择概率的加权平均值,具体权重由 │ 决定。 │ 的分布形式通常为上述的几种,可根据实际情况选择合适的分布形式。待估参数 � ,其均值 代表所有被调查对象对于某个选项的平均偏好,标准差 代表这种偏好的变异程度,标准差是否有统计学意义表示了这种偏好在被调查者中的总体变异是否存在。

模型拟合优度的判断

(1)伪

McFadden's ,也称伪 ,是基于与似然比检验相似思路去判断模型的常见拟合优度指标。伪 范围在0到1之间,越接近1,模型的拟合效果越好。在实际分析中如果侧重影响因素的分析,可以不太注重这个指标。

(2)模型预测准确率

可以根据预测对的样本数量除以总样本数量的值进行判断。

(3)AIC与BIC指标

AIC和BIC等指标也用于评判模型拟合优度,一般AIC和BIC越小表明模型的拟合优度越高,多用于比较多个模型的优劣。

R实例

常见的离散选择模型软件有NLOGIT、SAS、Stata、SPSS、R等,在R中可以使用mlogit函数进行分析。以Heating为例,该数据是关于加州900名被调查者在房屋五种供暖系统方案(gc,gr,ec,er,hp)的选择,这个数据中包含了被调查者收入(income)等基本信息以及根据其房屋特征等计算每个方案的安装的成本(ic)、每年运营的成本(oc)等变量。

1. 加载软件包,读取数据

library(mlogit)data("Heating", package = "mlogit")

2. 整理数据格式

将关于供暖系统中各个方案属性的变量整理为所需的格式,即整理为几行方案选择数据对应一个样本。

H <- dfidx(Heating, shape="wide", choice = "depvar", varying = c(3:12))

Shape指的是每一行的数据格式,如果每一行的数据表示一个方案的数据,则数据格式为long;如果每一行的数据表示每个被调查者的数据,则数据格式为wide;并定义数据集中depvar为方案选择项;varying为将要从wide型格式变成long型的变量

3. 条件logit模型(只考虑两个成本变量)

mc <- mlogit(depvar ~ ic + oc, H, reflevel = 'hp') #以hp为参照组summary(mc)

下图为样本数据中对5种方案里选择每种供暖系统的概率

下图是回归系数结果,ic、oc两者在0.05的水平上显著,且两者的系数均为负,表明在其他供暖系统的成本保持不变的前提下,随着安装/运营成本的上升,选择该供暖系统的可能性会下降。ic安装成本固定时,运营成本每上升一个单位,则选择该供暖系统的概率为原来的0.993(OR值),即下降了0.7%。

ec、er、gc的截距表示在hp选项中常数项为0的情况下,这3种供暖系统方案的常数项均为正数且显著,说明被调查者相对于hp而言对上述3种供暖系统具有基础选择偏好。在四种选项中,如果解释变量固定时,被调查者最有可能选择er,其次为gc。

apply(fitted(mc, outcome = FALSE), 2, mean)

得出模型预测中的每个供暖系统的概率并与样本概率进行比较

4. mixed logit model(本次仅考虑两个方案变量以及收入)

在本次中我们假设oc运营成本的系数是固定的,但安装成本为随机系数,每位调查者对运营成本的偏好是有异质的,并且是正态分布的随机系数。在实际分析案例中可根据数据类型和模型结果不断进行调整。

m2 <- mlogit(depvar ~ ic + oc| income, H, reflevel="hp",rpar = c( ic = "n"), halton = NA,R = 500)summary(m2)

#depvar~part_1|part_2中part_1变量是随替代方案变化而变化的变量,比如安装成本等;part_2一般指的是不随方案变化而变化的个人属性等变量,如个人年龄收入等。Reflevel指定参照方案为hp。Rpar设定变量随机系数的分布,如n代表正态分布,u代表均匀分布等。Halton中NA代表使用准随机霍尔顿数从指定的分布中生成绘图;R代表抽取的次数。

下图是回归系数结果,可以看到个体收入在不同供暖系统中系数均不显著。若结果是显著的可以解释为当其他变量保持固定时,相对于hp,随着收入升高人们选择其某种供暖系统的可能性变化。其他方案的常数项和ic等方案属性的解释同条件logit模型。

上图显示ic的标准差是显著的,表明考虑将这ic设置成随机参数是合理的。ic服从均数为-0.0108318,标准差为0.0283756的正态分布,根据pnorm可算出正态分布的累计概率:

结果显示,一个供暖系统的安装成本越高,64.87%的个体选择该供暖系统的概率更低,而35.13%的个体选择该供暖系统的概率更高。

参考文献

黄阅微. 基于离散选择模型的患者互联网医疗服务平台就医选择行为研究[D]. 北京理工大学, 2018.

孙翠敏. 基于离散选择实验的患者就医选择行为分析[D]. 北京理工大学, 2016.

▼RCT随机化小程序推荐▼