Choose Language Hide Translation Bar

Exploring Group Differences and Other New Features in Structural Equation Models (2023-EU-30MP-1296)

The structural equation models (SEM) platform continues to grow and evolve into a more complete and powerful platform. An important feature added to SEM in JMP® Pro 17 is multiple-group analysis (MGA). MGA allows users to test for differences in parameters across populations by enabling the specification of models that can have group-specific estimates or equality constraints on parameters across groups. In this presentation, we will demonstrate the use of MGA and other new features in SEM using real data examples. We start with a simple regression example and then turn to a longitudinal analysis example that showcases the flexibility of MGA. Lastly, we show how survey development can be expedited by a new feature that links Exploratory Factor Analysis to the SEM platform.

 

 

Hi,  everyone.  I'm  Laura  Castro- Schilo.  I'm  a  senior  research  statistician  developer  working  with  the   Structural Equation Models  platform.   I'm  really  excited  today  to  show  you  some  of  the  new  features  that  we  have  in  JMP  Pro  17.  One  of  the  big  ones  is  going  to  allow  us  to  explore  group  differences.   We're  going  to  talk  about  that  a  lot  today.

Our  plan  for  today  is,  hopefully,  we'll  spend  most  of  the  time  in  a  demo,  really  showing  you  those  new  features.  But  very  briefly,  before  we  get  into  that,  I  want  to  remind  you  what   Structural Equation Modeling  is,  why  you  might  want  to  use  it,  and  then  hopefully  through  the  demo,  I'll  show  you  how  to  use  it.

Now,  our  presentation  today  is  not  very  long.   What  I  also  want  to  do  is  show  you share  with  you  some  additional  resources from  previous  discovery  presentations  and  developer  tutorials  where  you'll  learn  a  lot  more  detail  on  how  to  use   SEM.

Now,  the  overview  of  new  features  we're  going  to  cover,  we're  going  to  first  talk  about  multiple  group  analysis  and  then  some  improvements  that  we've  done  for  longitudinal  modeling  within  SEM  and  for  survey  development.  After  we  go  over  those,  we'll  go  straight  into  the  demo  and  really  show  you  how  all  of  those  are  used.

Structural Equation Modeling  is  a  very  general  analysis  framework  for  investigating  the  associations  between  variables.  Now,  this  is  a  very  broad  definition,  and  that's  purposeful, because   Structural Equation Modeling  is  a  very  broad  technique  where  a  number  of  different  models  can  be  fit.

Here  I've  listed  a  few  of  the  models  that  you  could  fit  within   SEM,  but  this  is  not  an  exhaustive  list.  It  really  is  a  a  very  flexible  framework.

A  natural  question  that  might  come  to  mind  is,  if  I  can  do  some  of  these  analysis  somewhere  else,  then  why  would  I  want  to  use  a  SEM?   Sometimes  you  might  not  need  to  use  it,  right?   That  would  be  just  fine.  But  there  are  some  circumstances  in  which  SEM  would  be  particularly  helpful.   I've  included  here  a  list  of  what  those  circumstances  might  be.

The  first  is  sometimes  you  might  be  interested  in  understanding  the  mechanisms  by  which  things  happen.   This  is  a  circumstance  where  SEM  can  be  very  useful.  Oftentimes  when  you  want  to  understand  mechanisms,  that  means  that  you  have  variables  that  are  both  predictors  and  outcomes.

Yet,  not  many  statistical  techniques  allow  you  to  specify  models  where  you  can  have  a  variable  be  both  a  predictor  and  an  outcome.  That's  actually  something  that  is  very  natural  in  SEM.   If  this  is  something  that  you're  working  on,  SEM  could  be  very  helpful  for  you.

You  really  want  to  leverage  your  domain  expertise  if  you're  using  SEM.  The  reason  is  because  in  order  to  specify  your  models,  you  really  need  to  think  about  what  are  your  theories?  What  is  it  that  you  know  about  your  data?   You  come  up  with  those  theories,  you  translate  them  into  a  testable  model,  and  then  when  you  fit  your  models,  you  see  whether  or  not  there's  support  for  those  ideas  that  you  have.

Now,  a  very  important  use  case  for  SEM  is  when  you're  working  with  variables  that  cannot  be  measured  directly.  So  late- in  variables  are  very  important  in  a  number  of  different  domains.  If  you're  interested,  for  example,  in  looking  at  customer  satisfaction  or  quality  of  a  product  in  the  social sciences.  There's  so  many  late- in  variables,  personality,  intelligence,  those  are  some  of  the  cliche  things  that  you  would  hear.  But  really,   late-in variables  are  all  over  the  place.  If  you  work  with  those,  if  you  have  research  questions  that  entail  late- in  variables,  then  you're  really  going  to  benefit  by  using  SEM.

A  somewhat  related  reason  to  use  SEM  is  that  if  you  have  variables  that  have  measurement  error  and  you  actually  want  to  account  for  that  measurement  error,  SEM  can  also  be  very  helpful.   I  say  that  this  is  related  to  the   late-in variables  because  the  way  in  which  we  account  for  the  measurement  error  is  by  specifying   late-in variables  in  SEM.  Measurement  error  can  have  sometimes  unexpected  consequences  on  our  inferences.   It  can  be  quite  useful  to  account  for  it.

Another  benefit  of  SEM,  and  this  is  one  thing  that  is  very  practical  really,  is  when  it  comes  to  having  missing  data,  which,  of  course,  are  all  over  the  place,  the  most  popular  estimation  algorithm  for  SEM  handles  missing  data  in  a  seamless  fashion  such  that  the  user  doesn't  really  need  to  do  anything.  Missing  data  are  handled  with  a  cutting  edge  algorithm  and  you  really  don't  have  to  worry  about  it  as  much.   If  you  have  missing  data,  sometimes  I  tell  people  even  if  you  just  have  a  simple  linear  regression,  you  can  benefit  from  using  SEM  just  because  missing  data  are  handled  and  it's  easy.

Lastly,  Path  Diagrams  are  a  critical  tool  for   Structural Equation Models.  Those  diagrams  are  very  helpful  because  sometimes  even  the  most  complex  statistical  models  can  be  conveyed  in  a  very  intuitive  fashion  by  relying  on  these  diagrams.

In  JMP,  we  use  these  diagrams  to  facilitate  the  specification  of  our  models,  but  also  to  convey  the  results  of  models.   Those  diagrams  can  be  very  helpful  when  you're  presenting  your  results  to  any  type  of  audience,  really.

All  right,  so  this  is  just  a  very  brief  list  of  why  you  might  want  to  use  SEM.  I  do  want  to  share  a  link  here  to  a  presentation  that  I  gave  along  with   James Cuffler,  who's  also  in  job  development.   We  did  a  developer  tutorial  where  we  actually  went  into  a  much  more  depth  about  the  reasons  why  you  might  want  to  use  SEM.  If  you  want  to  check  that  out,  I  just  wanted  to  share  this  link  here.  If  you  download  the  slides  from  the  community,  you  don't  have  to  type  this  long  link.  You  can  just  click  on  that  and  check  that  video  out.

All  right,  so  how  to  use  SEM.  Again,  I'm  going  to  go  into  a  demo  and  I'll  show  you  how  to  use  SEM,  but  my  demo  is  not  going  to  be  too  focused  on  a  tutorial  type  of  presentation,  mostly  because  of  time  constraints.  We  want  to  keep  this  short  and  sweet.

What  I  want  to  do  in  this  slide  is  share  with  you  additional  video  presentations  where  you  can  go  and  learn  more  in  a  tutorial  form  how  to  use   Structural Equation Models  for  a  few  different  case  studies,  basically.  Here,  this  first  video  is  a  link  where  I  covered  how  to  model  survey  data  and  latency  variables.  We  cover  things  like  confirmatory  factor  analysisand  path  analysis  with  and  without  latency  variables.

If  you  have  longitudinal  data,  this  video  can  be  quite  helpful.  Here  I  went  over  how  to  fit   late-in growth  curve  models  and  how  to  interpret  those  results.  We'll  do  a  little  bit  of  longitudinal  modeling  here  today  in  the  demo,  but  we  won't  be  able  to be  able  to  go  into  the  details  again  in  a  tutorial  way.   I  definitely  encourage  you  to  watch  that  if  you  are  interested.

If  you  don't  have  prior  SEM  experience,  I  very  much  encourage  you  to  watch  this  other  video  where  James  Cuffler  and  I  talked  about  building   Structural Equation Models  in  JMP  Pro.  This  one  is  very  introductory,  and  so  you  might  want  to  start  with  that  one  prior  to  going  to  the  others.

Okay,  so  now  it's  time  to  get  into  a  little  overview  of  the  new  features  in  JMP  Pro  17.   Multiple  group  analysis  is  a  feature  that  I've  been  really  looking  forward  to  presenting  on  because  this  is  something  that  extends  all  of  the  models  that  can  be  fit  within  SE M.   It  does  so  by  allowing  us  to  investigate  similarities  and  differences  across  sub-populations.  We  do  this  by  incorporating  a  grouping  variable  into  our  analysis.

Now,  the  most  popular  multiple  group  analysis  examples  usually  show  a  grouping  variable  that  has  few  levels.  Things  like  demographic  variables  are  used  very  often.   Indeed,  in  the  demo  I'm  going  to  do,  I'm  also  going  to  use  a  simple  demographic  variable.  But  really,  there's  no  limit  to  how  many  levels  you  really  should  have.  What  really  matters  is  how  many  observations  do  you  have  for  each  level.   You  want  to  have  a  relatively  good  sample  size  for  each  of  those  subgroups.

Now,  there  is  a  general  strategy  for  the  analysis.  We're  going  to  see  this  in  practice,  but  I  want  you  to  start  thinking  about  how  this  really  works.  It's  actually  quite  simple.  What  we  do  in  multiple  group  analysis  is  fit  two  models.

One  of  those  models  is  going  to  be  a  more  restricted  version  of  the  other.   Once  we  fit  both  of  them,  we'll  be  able  to  do  a  likelihood  ratio  test  or  a  high  square  difference  test  in  order  to  make  an  inference  about  whether  the  restrictions  that  we  imposed  in  one  of  the  models  are  in  fact  tenable.   This  is  how  we  figure  out  whether  there  are  statistically  significant  differences  across  groups. Again,  we'll  see  that  play  out  in  the  demo .

In  terms  of  longitudinal  data  analysis,  we've  made  it  a  lot  easier  to  interpret  the  results  from  your  models  by  looking  at  the  model  implied  trajectories  through  a  new  predicted  values  plot.  We  also  have  made  it  a  lot  easier  to  specify  multivariate  growth  curves.   If  you're  familiar  with  these  models,  they  allow  you  to  investigate  the  association  of  multiple  processes  over  time.  They  can  be  very  helpful,  but  it  used  to  be  a  little  tedious  in  terms  of  how  to  specify  those.  Now  we've  done  that  very  easy  and  fast  through  the  use  of  model  shortcuts.   For  some  advanced  applications,  we've  also  made  it  easier  to  define  an  independence  model  based  on  what  users  want  to  have  as  the  independence  model.

There  are  also  some  improvements  for  surveys.  This  really  is  mostly  focused  on  streamlining  your  workflow  for  developing  surveys.  Usually  the  analytic  workflow  starts  by  using  exploratory  factor  analysis,  and  then  you  take  those  results  and  confirm  them  with  an  independent  sample  using  confirmatory  factor  analysis  in  SEM .

What  we've  done  with  the  help  of  Jianfeng  Ding,  who  is  the  developer  for  Exploratory  Factor  Analysis,  we've  been  able  now  to  link  the  two  platforms  by  basically  allowing  you  to  copy  the  model  specification  from  exploratory  factor  analysis  and  then  paste  that  into  SEM  so  that  you  can  easily  and  quickly  confirm  your  results.

We  also  have  a  new  shortcut  for  switching  the  scale  of  your  late-in  variables.  Sometimes  this  is  helpful  when  you're  developing  surveys  for  specifying  models.   We  also  have  a  number  of  more  new  heat  maps  that  are  just  going  to  make  it  easier  to  interpret  the  results  of  your  analysis.

Now,  last  but  not  least,  our  platform  has  always  been  very  fast.  But  in  this  release,  Chris  Gotwell  put  a  lot  of  awesome  effort  toward  improving  even  more  the  performance  of  our  internal  algorithms.   If  you  have  lots  of  variables  or  lots  of  data,  definitely  give  it  a  shot.  I  am  very,  very  impressed  and  excited  about  what  we  have  to  offer  in  terms  of  the  performance  of  the  platform  as  well.

Okay,  so  it's  time  for  the  demo.  Let's  go  ahead  and  show  you  what  I  have  over  here.  I  have  a  journal  where  I'm  going  to  work  through,  hopefully  we  have  enough  time  to  work  through  three  examples.

The  first  one  here,  perhaps  not  surprisingly,  uses  our  big  class  data  table.  It's  going  to  be  a  very  simple  example  just  to  introduce  the  notions  behind  multiple  group  analysis.  Now,  what  I'm  going  to  do  here,  we  have  two  variables,  right?  Height  and  weight.  What  I  want  to  do  is  investigate  the  association  between  these  two  variables  by  sex.  I'm  going  to  go  to  the  Analyze  menu,  go  down  to  Multivariate  Methods,  and  then  Structural  Equations  Models.  I'm  going  to  use  both  of  those  variables  and  click  on  Model  Variables.

Now,  the  brand  new  feature  of  multiple  group  analysis  can  be  found  in  this  launch  dialog  under  this  Groups  button.  This  button  is  new  and  that's  what's  going  to  allow  us  to  select  our  grouping  variable  and  click  on  groups  in  order  to  use  that  as  our  grouping  variable.  We're  going  to  look  at  how  males  and  females  and  whether  they  differ  basically  on  their  association  between  height  and  weight.  We're  going  to  click O kay.

Now,  this  is  the  platform.  You  can  see  if  you  have  seen  our  platform  before,  it  looks  very  similar  as  before,  with  the  exception  of  these  new  tabs  right  here.  The  tabs  are  there  to  tell  us  about  the  different  groups  that  we  have  in  our  analysis.  In  this  case,  there's  only  two  levels  for  our  grouping  variables.   We  have  a  tab  for  the  females  and  a  tab  for  males.

One  of  the  things  you'll  notice  is  that  the  Path  Diagrams  have  a  model  already  as  a  default  for  each  of  those  groups.  Those  default  models  are  the  same.  That's  why  when  I  switch  tabs,  nothing  really  changes.   The  Union  tab,  as  the  name  implies,  it  shows  us  what's  in  common  across  all  of  our  grouping,  well,  the  levels  of  our  grouping  variable. Here,  this  is  why  this  diagram  also  looks  the  same.

In  order  to  specify  a  simple  linear  regression  in  SEM ,  here,  I'm  just  going  to  select  in  this  From  List  the  height  variable,  and  then  in  the  to  list,  I'm  going  to  select  weight.  I'm  going  to  link  those  two  variables  with  a  one  headed  arrow,  which  is  what  adds  that  regression  path  to  my  model.   This  is  just  a  simple  linear  regression  where  height  is  predicting  weight.

Now,  sometimes  I  like  to   right-click  on  the  canvas  of  the  Path  Diagram  and  I  go  to  customize  diagram  just  to  make  the  nodes  a  little  bit  larger  because  I  find  that  sometimes,  especially  when  the  diagrams  are  small,  that  looks  a  lot  nicer.  This  is  just  a  simple  linear  regression.

Now,  notice  that  because  I  did  my  model  specification  under  the  Union  tab,  both  the  females  and  the  males  inherited  those  same  changes  and  specifications  to  the  model  that  I  made.  If  I  make  any  changes  within  a  group  specific  tab,  then  those  changes  will  only  apply  to  that  group.  But  in  this  case,  what  I  want  to  do  is  fit  an  initial  model  where  both  males and  famales  and  females  get  their  own  estimates  for  this  linear  regression.

Now,  keep  in  mind  that  the  estimation  of  this  model  is  all  done  simultaneously.  We're  not  separately  fitting  this  model  for  females  and  for  males.  Everything  is  done  simultaneously,  but  I'm  still  able  to  allow  each  of  the  groups  to  have  their  own  estimates  for  the  model.

I'm  going  to  click  on  Run,  and  we'll  see  there's  a  model  comparison  table  where  we  can  learn  a  lot  about  the  fit  of  the  model.  But  now,  something  that's  new  in  our  report  is  that  we  have  these  tabs  for  each  of  our  groups.   We  have  a  tab  for  the  females  and  a  tab  for  the  males.

Now,  if  you  focus  on  the  regression  coefficient,  for  example,  I  can  go  back  and  forth  and  realize  that  I  do  have,  in  fact,  a  different  estimate  for  that  coefficient.

Now,  the  coefficient  looks  different,  but  I  don't  have  a  test,  a  formal  statistical  test  that  tells  me  whether  or  not  that  association  is  statistically  significant.  The  difference  and  the  association  is  different.   At  any  rate,  the  males  here  have  about  3.4,  female  have  a  little  bit  larger  value.  But  what  we  really  want  is  to  fit  a  second  model  where  we  force  an  equality  constraint  on  that  parameter  estimate,  and  then  we  can  use  that  to  compare  against  this  model.   Let's  go  ahead  and  do  that.

I'm  going  to  be  on  the  Union  tab  and  I'm  going  to  select  that  regression  path  and  I'm  going  to  click  the  button,  Set  Equal.  This  is  going  to  bring  up  this  dialog  which  is  just  going  to  ask  me  to  confirm  that  I  do  want  to  apply  this  equality  constraint  across  all  of  my  groups,  which  I  do.   I'm  going  to  click  Okay.  Now  notice  that  I  have  this  new  label  that  was  put  here  on  the  edge.   If  I  look  at  the  female  tab  and  the  male  tab,  that  label  is  still  showing  up  on  that  edge  on  that  arrow.  That  is  our  way  to  convey  to  you,  the  user,  that  the  same  parameter  estimate  is  going  to  be  used  basically  to  describe  that  association.

Okay,  so  let's  go  back  and  model  name.  We're  going  to  change  this  to  be  regression  effect  is  equal.  We  force  that  to  be  equal  in  this  model.   We're  going  to  go  ahead  and  click  on  Run.  Now,  again,  we  could  look  at  our  model  comparison  to  look  at  the  fit  of  my  different  models.  I  can  select  the  two  models  that  I  just  fit,  and  because  one  of  those  models  is  a  restricted  version  of  the  other,  we  call  this  that  the  models  are  nested,  we  can  actually  do  a  likelihood  ratio  test.

That  is  done  very  easily  in  our  platform  simply  by  selecting  the  two  models  and  clicking  on  Compare  Selected  Models.  We  will  obtain  a  difference  in  the  Chi  square,  which  represents  the  change  in  the  misfit  of  the  model.  We  also  look  at  the  difference  in  degrees  of  freedom  between  the  two  models  and  the  differences  in  the  Fit  according  to  some  of  the  most  popular  Fit  statistics  in  SEM.

Now,  according  to  this  specific  test,  it  appears  that  the  change  in  Chi  square,  the  increase  in  misfit  is  not  statistically  significant.   If  we  use  just  this  Chi  square  difference  test,  we  would  then  come  to  the  conclusion  that  even  though  those  two  values  are  different,  they're  not  statistically  different.   Now  we  could  go  back  down  here  to  our  tab   results  and  you  can  see  that  the  regression  coefficient  is  the  same  even  when  I  go  across  the  tabs.  We  could  then  say,  well,  there's  no  difference  between  males  and  females  in  terms  of  how  height  predicts  weight.

This  is  a  very  simple  example  of  how  we  could  use  equality  constraints  across  groups  in  order  to  test  a  specific  hypothesis.  Now,  as  you  can  imagine,  I  could  go  back  into  my  model  specification  and  I  could  put  equality  constraints  also  on  the  variance  of  height  and  on  the  residual  variance  of  weight.  If  that  is  something  that  is  of  interest  to  me,  if  I  want  to  test  those  differences,  this  framework  allows  me  to  do  that.

Now,  a  lot  of  times  you're  going  to  have  more  complicated  models  well  beyond  linear  regression,  or  you  might  have  more  levels  of  your  grouping  variable,  and  that's  totally  fine.  This  is  a  simple  example  that  hopefully  you  can...  That  allows  you  to  see  how  you  could  extend  this  into  a  more  complicated  setting.  Okay,  so  that  is  this  example.

I  want  to  move  on  to  an  example  that  uses  longitudinal  data.  Now,  we're  not  going  to  move  away  from  multiple  group  analysis  entirely.  We're  basically  going  to  highlight  some  of  those  longitudinal  analysis  improvements,  but  then  still  bring  back  the  notion  of  multiple  group  analysis.

For  this  example,  I  want  you  to  imagine  that  we  have  data  table  where  we  have  data  from  students  that  have  taken  an  academic  achievement  test  for  four  consecutive  years.   Perhaps  what  we  really  want  to  find  out  from  these  data  is  whether  student's  achievement...  How  is  it  developing  over  time?   Whether  males  and  females  differ  in  their  trajectories  over  time?   These  are  going  to  be  the  two  questions  that  we're  going  to  focus  on  for  this  particular  example.

Now,  there  is  a  sample  data  table  that  you  will  find  within  our  sample  data  folder.  It's  called  Academic  Achievement.   You  could  use  that  to  follow  along  with  this  example.  In  this  data,  we  have  100  rows.  Each  row  represents  a  different  student  that  took  this  academic  achievement  test.   You  can  see  that  here,  these  four  columns  represent  the  scores  on  that  multiple  choice  test  that  was  taken  for  years  in  a  row.  Those  are  the  data  that  I'm  going  to  focus  on  for  fitting  a  longitudinal  model.

I'm  going  to  go  to  the  Analyze  menu,  Multi  Variate  Methods,   Structural Equation Models,  and  those  four  variables  are  selected.   I'm  just  going  to  click  on  Model  Variables  in  order  to  use  those  in  SEM.   I'm  going  to  click  Okay.   Remember,  the  first  question  was,  how  do  students'  academic  achievement  develop  over  time?   We  want  to  characterize  that  growth  or  figure  out  whether  there  is  growth  indeed.

We  have  our  model  shortcut  down  at  the  bottom  left,  and  you  can  see  that  under  the  Longitude  analysis  menu,  we  have  a  new  option.  We're  going  to  get  to  this  option  later  today,  multivariate,  late  in  growth  curves.

But  we  also  have  had  a  few  other  options  here  that  make  longitudinal  modeling  very  quick  and  simple.  For  this  example,  I'm  going  to  use  the  Fit  and  Compare  Growth  models.  When  I  do  that,  three  different  models  are  fit.  I  obtain  a  Chi  square  difference  test  for  all  of  the  possible  combinations  here.   If  I  look  at  the  Fit  indices  and  also  the  results  from  this  Chi  square  difference  test,  I  will  recognize  that  the  best  fitting  model  here  is  the  linear  growth  curve  model.  In  other  words,  it  appears  that  the  scores  on  this  academic  achievement  test  over  time  can  be  best  characterized  by  linear  growth.

Based  on  that,  I  will  go  ahead  and  focus  on  interpreting  the  results  from  this  linear  growth  curve  model.   I'm  going  to  open  that  and  recall  that  that  one  of  the  new  features  for  longitudinal  modeling  is  a  new  predicted  values  plot  that  allows  us  to  interpret  the  results  of  our  models  a  lot  more  easily.   If  you're  familiar  with  growth  curve  models,  you  know  that  some  of  the  key  parameter  estimates  are  these  right  here.  They  tell  us  on  average  how  our  students  where  do  they  start  and  how  are  they  changing  over  time  and  how  much  variability  there  is  in  those  trajectories.

Under  the  red  triangle  menu  of  this  particular  model,  if  I  scroll  down,  I'm  going  to  find  an  option  called  predicted  values  plot.   If  I  click  on  that,  you  will  see  that  as  a  default,  we  show  you  box  plots  of  the  predicted  values  for  all  of  the  outcome  variables  in  the  model.

Now,  when  you  have  longitudinal  data,  we  have  a  very  convenient  option  here  that  allows  you  to  connect  the  data  points  and  actually  obtain  a  spaghetti  plot  that  shows  you  each  of  the  individual  predicted  trajectories  by  the  model.  Now,  it's  pretty  cool  because  the  plot  is,  in  fact,  linked  to  the  data  table.   Whatever  selections  you  have  here  on  the  plot,  you  can  also  see  those  in  your  data  table,  which  is  something  that  you  know  to  expect  from  JMP.

In  terms  of  interpreting  the  results  of  the  model,  it's  no  surprise  that  these  are  all  straight  lines  because  we  fit  a  linear  model.  But  you  can  certainly  see  that  there  is  a  lot  of  variability  in  the  way  these  students  are  changing.  Some  students  start  on  the  top  at  the  beginning  and  are  still  increasing.  Other  students  are  starting  low  and  are  actually  exhibiting  a  little  bit  of  decline  over  time.

But  we  also  see  an  average  trajectory  here  that  seems  to  show  a  little  bit  of  increase  over  time.   On  average,  there  is  some  increase,  but  there's  a  lot  of  variability  on  how  people  are  changing.   Of  course,  one  of  the  natural  questions  you  might  have  is,  what  factors  predict  those  different  trajectories,  like  the  variability  in  that  intercept  slope,   that's  something  that  I've  covered  in  other  presentations,  so  I'm  not  going  to  talk  about  that  now.  But  again,  I  encourage  you  to  use  the  predictive  values  plot  to  better  interpret  your  longitudinal  analysis.

We  talked  about  users  being  able  to  specify  their  own  independence  model.  That  is  something  that  we  do  here  in  the  model  comparison  table  and  can  be  very  useful  for  longitudinal  analysis.  We  do  have  an  independence  model  that  is  fed  by  default,  but  if  you  choose  to  change  that,  then  you  could  always   right-click  on  any  given  model  that  you  want  to  set  as  the  independence  independence  model,  and  we  will  take  care  of  that  change  for  you.

That  is  an  advanced  technique.   I  very  much  advise  you  to,  if  you're  not  familiar  as  to  what's  the  proper  independence  model  for  your  analysis,  you  should  really  take  a  look  at  the  literature  to  make  sure  that  you're  using  a  good  independence  model  because  it  really  varies  sometimes  by  context.

I'm  sitting  next  to  this  beautiful  window  and  the  sun,  it's  a  gorgeous  day  so  I'm  going  to  have  to  adjust  here  my  computer  so  that  I  don't  have  all  the  light  on  my  face.  I  apologize  for  that.

Okay,  so  let's  get  back  to  this  question.  We  said  that  how  do students  achieve  and  develop  over  this  period  of  time?   We  now  have  an  understanding  that  it  develops  in  this  linear  fashion  and  that  there  is  substantial  variability.  That's  the  answer  to  that  question.

Well,  the  next  thing  is,  do  males  and  females  differ  in  these  trajectories?   The  way  we're  going  to  acknowledge  and  address  that  question  is  by  using  multiple  group  analysis.  T his  could  be  back  in  the  platform,  we  could  use  the  main  triangle  menu  to  redo  and  relaunch  our  analysis.

Now  what  we're  going  to  do  is  bring  this  grouping  variable,  I  have  a  sex  as a  groups  variable.   Just  by  doing  this,  we'll  be  able  to  invoke  our  multiple  group  analysis  functionality.   I'm  going  to  click  Okay,  and  now  you  can  see  that  our  report  for  the  platform  has  the  levels  of  our  grouping  variable  here  as  tabs.

Just  as  before,  you  can  see  that  the  males  and  the  females  have  the  same  model  as  a  default,  but  we  can  make  changes  to  that.   We're  going  to  work  within  the  Union  tab  because  I  want  the  changes  that  I'm  about  to  do  to  the  model  specification,  I  want  them  to  apply  for  both  males  and  females.

I  will  also  highlight,  and  this  is  just  a  little  side  note,  that  under  the  Status  tab,  you're  going  to  find  group  specific  information  that  we  didn't  have  before  when  we  didn't  have  multiple  group  analysis.   You  can  have  some  information  about  your  data,  missing  data,  and  so  on  that  is  specific  to  the  groups.

Okay,  so  let's  go  ahead  and  answer  this  question.  Do  males  and  females  have  differences  in  their  trajectories?  Well,  I  already  know  that  the  linear  model  fits  best,  so  I'm  going  to  go  to  our  model  Shortcuts,  Longitude   Analysis,  and  I'm  going  to  click  on  the  linear  latency  growth  curve.  The  Shortcuts  very  quickly  set  up  the  model  for  me,  make  it  very  simple,  and  they  do  that  across  all  of  the  levels  of  the  grouping  variable.  I  have  the  linear  growth  curve  model.

Notice  that  these  key  aspects  of  the  model,  the  estimates  that  really  characterize  the  change  in  our  data,  don't  have  any  labels  on  those  edges,  which  means  that  they're  freely  estimated  across  males  and  females.   My  first  model  here  is  a  linear  growth  curve  model.  I'm  just  going  to  put  a  little  keyword  here.  Oops,  I  erased  it.  Linear  growth  curve.  But  I  wanted  to  include  here  that  this  is  freely  estimated  right  across  the  groups.  I'm  going  to  click  on  run.  Excellent.

We  can  see  here  some  Fit  indices.   In  my  report,  I  can  see  a  tab  for  the  males  and  for  the  females.   Of  course,  as  you'd  expect,  if  I  go  back  and  forth,  I  could  take  a  look  at  the  results  for  the  females  and  then  go  back  and  look  at  how  those  results  are  perhaps  different  for  the  males.   This  is  interesting.  There  appear  to  be  some  differences,  but  again,  we  might  want  to  figure  out  whether  the  differences  that  we  observe  just  from  looking  at  these  estimates  but  those  are  in  fact,  statistically  significant.

What  I'll  do  is  I'm  going  to  go  back  to  my  model  specification  and  I'm  going  to  do  an  OmniVis  test.  In  other  words,  rather  than  just  putting  an  equality  constraint  on  one  of  these  estimates,  I'm  actually  going  to  do  that  for  all  of  these  estimates,  the  intercept  mean,  the  mean  for  the  slope,  and  the  covariance  of  the  intercept  and  slope,  and  their  variances.

You  don't  have  to  do  it  this  way,  but  really  it's  your  research  question  that  should  be  guiding  where  do  you  place  those  equality  constraints?  In  my  case,  I  just  want  to  do  an  omniVis  test  where  I  figure  out  whether  the  trajectories  for  males  and  females  are  different  and  whether  or  not  I  need  a  separate  estimate  for  those  parameters.

I  have  all  of  those  edges  selected  and  I'm  going  to  click  on  set  equal.  Here  I  confirmed  that  I  do  want  those  equality  constraints  across  both  groups.  This  is  actually  quite  helpful  when  you  have  more  than  two  levels  in  your  grouping  variable.  It  might  be  that  you  want  equality  constraints  across,  say,  two  groups  but  not  the  third.   You  can  uncheck  some  of  those  groups  here  if  you  needed  to.

I'm  going  to  click  Okay.  Now  all  of  those  edges  got  a  different  label.   You  can  see  that  if  I  go  and  look  at  the  males  and  the  model  for  the  females,  those  labels  are  the  same.  Again,  just  to  remind  us  that  we're  going  to  estimate  only  one  estimate  for  each  of  those  edges  across  groups.

Okay,  so  this,  once  again,  is  a  linear  growth  curve,  but  I  have  equal  growth  estimates.  Let's  go  ahead  and  run  that  model.  We  can  see,  again,  we  could  focus  on  the  fit  of  this  model.  It  doesn't  seem  to  be  as  good  as  the  previous  one.  Because  this  second  model  is  a  restricted  version  of  the  first,  we  can  actually  select  those  two  models  and  do  a  meaningful  comparison  by  clicking  on  Compare  Selected  Models.

As  before,  we  are  able  to  see  here  the  change  in  the  Chi  square  along  with  the  change  in  the  degrees  of  freedom.   This  tells  us  how  much  increase  in  misfit  is  there  in  our  model,  and  is  that  increase  in  misfit  statistically  significant?

If  it  is,  which  in  this  case  it  is,  then  we  basically  are  saying  that  those  equality  constraints  are  not  tenable.  It  was  not  a  good  idea  to  place  those.   Now  we  can  say  with  a  formal  statistical  test  that  there  are  statistically  significant  differences  in  the  trajectories  across  males  and  females.

Now,  you  might  want  to  look  at  those  differences  by  using  the  predicted  values  plot.  That's  something  that  we  can  do  just  by  going  into  the  red  triangle  menu.  But  what  I'm  going  to  do  first,  actually  is  I  don't  really  want  to  look  at  the  model  that  has  the  equal  growth  estimates  because  we  just  realized  that  those  equality  constraints  were  really  not  a  good  idea.   I'm  not  going  to  look  at  that.  Instead,  I'm  going  to  look  at  the  first  model  we  fit,  and  I'm  going  to  do  the  same  for  the  males  here.  Under  the  red  triangle  menu,  I'm  going  to  click  on  Predicted  Values  Plot,  and  I'm  going  to  connect  those  points  because  I  know  my  data  are  longitudinal.

This  is  the  plot  that  is  specific  to  the  males,  to  the  male  sample.  But  it  would  be  really  helpful  to  look  at  this  plot  side  by  side  with  the  plot  for  the  females.   It's  actually  quite  nice  that  all  of  our  red triangle  menu  options  here  are  automatically  turned  on  across  all  of  your  groups,  so  you  don't  have  to  go  group  by  group  turning  on  the  things  you  want  to  see.

But  another  trick  that  I  really  like  is,  when  you  have  a  tabbed  report,  you  can  always  right- click  on  it  and  change  the  style  of  the  report  so  that  it's  on  a  horizontal  spread.  This  is  going  to  allow  you  to  see  the  tabs  side  by  side,  the  content  of  them.

I'm  going  to  click  on  H orizontal  Spread.   Now  notice  that  I  have  the  males  and  the  females  side  by  side.  I'm  going  to  use  the  red  triangle  menu  along  with  the  option  or  Alt  key  in  order  order  to  turn  off  the  summary  of  fit,  the  parameter  estimates,  and  the  diagram.   Really,  all  I  want  to  see  is  the  predicted  values  plot.  I'm  going  to  click  Okay.  Perfect.

Now  I  can  see  the  predicted  values  plot  for  the  males  and  for  the  females.  I  can  see  that  side  by  side.  Very  purposefully,  we  have  here  the  Y  axis  in  the  same  scale  so  that  these  plots  are  comparable.   Now  you  can  see  how  the  trajectories  differ.  We  see  that  there's  a  lot  more  spread  for  the  sample  for  the  females.   There  also  seems  to  be  a  little  bit  of  a  difference  on  that  average  trajectory  in  the  amount  of  growth.

Again,  there's  many  more  follow  up  tests  that  we  could  do  here  in  order  to  figure  out  where  the  specific  differences  lie.  If  we  wanted  to  test  that,  we  could  say,  well,  is  there  a  difference  specifically  in  the  variance  of  the  slope?  We  could  put  that  equality  constraint  and  do  more  specific  tests  as  followups.  But  for  now,  I  hope  that  just  showing  you  this  example  really  allows  you  to  see  how  multiple  group  analysis  can  be  used  in  a  more  complex  setting  and  how  this  new  predictive  values  plot  can  be  used  to  really  facilitate  the  interpretation  of  your  longitudinal  models.

All  right.  We're  almost  at  the  end  of  the  demo  and  what  I  want  to  do  very  quickly  with  the  same  data,  I  really  wanted  to  highlight  the  multivariate  growth  curves  shortcut.  L et  me  go  ahead  and  go  back  here  to  the   Structural Equation Models  platform,  and  this  time,  imagine  that  we  have  two  sets  of  scores  over  time.

So  we're  going  to  be  looking  at  two  processes.  We  don't  just  have  academic  achievement  on  that  one  test.  We  have  it  on  two  different  tests  and  we  want  to  see  how  those  two  processes  are  changing.  How  are  they  related  over  time?   I'm  going  to  use  all  of  these  variables  here,  click  on  Model  Variables  and  Okay.  U nder  the  model  shortcut,  remember  that  longitudinal  analysis  multivariate latent  growth  curve,  that  shortcut  allows  me  to  select  variables  for  one  specific  process.

Here,  I  might  have  those  first  four  variables.  That  was  my  first  process  I  want  to  look  at.  Let's  just  say  that  those  were  math  scores.  I'm  going  to  call  that  math.  Y ou  get  to  choose  here  what  type  of  growth  you  want  to  specify  for  that  specific  process  for  that  set  of  variables.  We're  going  to  stick  to  a  linear  growth,  and  then  we  can  click  the  plus  button  in  order  to  have  that  done  for  us  right  away.  Y ou  can  see  the  preview  in  the  background  here.  W e  have  an  intercept  and  a  slope  for  math.  T hen  we  can  change  the  name  here.  Maybe  the  second  process  is  science,  and  now  we  can  select  the  variables,  the  repeated  measures  for  that  science  test  over  the  four  years.

A gain,  we're  going  to  stick  to  the  linear  model,  and  we're  going  to  click  the  plus  button.  V ery  quickly,  that  model  is  changing  there  on  the  background.  We're  done  now.  So  I'm  just  going  to  click  Okay.  A gain,  now  I  could  just  click  Run  and  very  quickly  get  the  results  for  that  model.  This  is  an  advanced  application,  but  it  is  a  really  interesting  one  because  it  allows  you  to  look  at  how  the  initial  time  point,  the  intercepts  across  two  processes  in  this  case,  how  are  those  intercept  scores  related?  Are  they  associated?  A lso  the  rates  of  change  over  time.

If  you  have  a  higher  score  in  math,  do  you  also  tend  to  have  not  just  a  higher  score,  but  a  higher  slope  over  time  in  math?  Does  that  mean  you  also  have  a  higher  rate  of  change  in  science?  A ccording  to  this,  you  do,  because  we  have  a  positive  association  between  those  two  factors.

Again,  just   highlighting  some  of  that  new  functionality.  My  very  last  example  is  for  survey  development.  This  is  going  to  be  very  brief,  I  promise.  Let's  just  say  here  that  we  want  to  figure  out  what  are  the  key  drivers  of  customer  satisfaction?  W e  know  that  perceived  quality  of  our  product  and  the  reputation  of  our  brand  are  really  important.  But  really,  before  we  can  even  answer  any  questions  about  customer  satisfaction,  we  really  need  to  make  sure  that  we  have  a  valid  and  reliable  way  to  assess  those  variables.  Because  these  are  variables  that  are  not  observed  directly,  they're  latent  variables,  and  therefore,  it's  difficult  to  make  sure  that  we  are  measuring  them  in  a  reliable  and  valid  way.  S urvey  development  is  all  about  achieving  that  goal.

I  have  an  example  here  that  is  going  to  allow  us  to  see  how  exploratory  factor  analysis  is  now  linked  to  SEM  so  that  you  can  do  survey  development  in  a  really  streamlined  fashion.  I  have  843  rows  in  this  data  table.  Each  row  represents  an  individual  who  filled  out  a  survey.  In  that  survey,  they  gave  us  ratings,  answered  questions  about   the  perceived  quality  of  our  product.  They  also  gave  us  different  answers  for  the  perceived  brand  of  our  brand.  T hen  they  also  answer  questions  about  their  satisfaction  with  the  product.  This  could  be  things  like,  how  likely  are  you  to  recommend  our  product  to  someone  you  know?  Those  types  of  questions.

I  already  have  a  saved  script  for  the  factor  analysis  platform.  I'm  not  going  to  get  into  the  details  of  how  you  use  this  platform,  but  I  do  want  to  focus  on  the  fact  that  the  results  from  this  analysis  are  right  here  in  the  rotated  factor  loading  matrix.  That  is  the  key  result  from  this  analysis.  U sually,  what  we  want  to  see  here  is  that  the  questions  that  are  supposed  to  measure,  in  this  case,  satisfaction,  that  they  are  in  fact,  loading  into  the  same  factor.

In this  case  they  are,  and  that's  good  news.  We  see  the  same  pattern  for  quality.  The  more  substantial  loadings  are  for  these  first  three  questions  of  quality.  Notice  that  there  is  one  quality  question  that  doesn't  seem  to  have  a  good  high  loading  in  any  of  the  factors.  So  maybe  we  would  go  back  and  make  sure  that  the  wording  of  that  question  is  good,  or  we  might  just  want  to  throw  out  that  question  altogether.

There's  also  a  couple  of  questions  for  perceptions  of  our  brand  that  didn't  seem  to  do  very  well.  A gain,  usually  you  do  very  careful  selection  of  your  questions.  You  would  go  back,  read  what  were  those  questions,  is  there  something  we  should  tweak,  or  shall  we  just  get  rid  of  them?  Now,  for  the  time  being,  the  feature  I  want  to  highlight  is  that  under  the  red  triangle  menu  of  this  model,  there  is  a  new  option  for  copying  the  model  specification  for  SEM.   I'm  going  to  click  that.  W hat  it  does  is  that  the  loadings  that  are  bold  here  in  our  final  rotated  factor  loading,  those  loadings  are  going  to  be  stored  so  that  we  can  use  them  in  the  SEM  platform.

Normally,  you'd  want  to  collect  a  new  independent  sample  so  that  you  can  confirm  these  exploratory  results.  Now,  let's  just  assume  for  a  minute  here  that  this  data  table  is  my  new  independent  sample,  and  I  would  now  go  to  Analyze,  Multivariate  Methods,   Structural Equation Models,  and  I  can  use  all  those  same  variables,  like  on  model  variables,  and  then  Okay  to  launch  the  platform.

Normally,  again,  you  want  to  confirm  the  results  that  you  found  with  an  independent  sample.  What  you  can  do  is  in  the  main  red  triangle  menu,  you  can  click  on  paste  model  specification.  N ow  notice  that  the  factor  loadings  from  the  factor  analysis  platform  were  rescaled  by  the  standard  deviations  of  the  indicators.  I'm  going  to  click  Okay,  and  you  can  see  now  that  the  values  here  are  fixed  for  the  loadings  of  those  late  in  variables.  They're  fixed  to  correspond  to  the  values  from  the  factor  analysis  platform.

Now,  again,  they  have  to  be  rescaled  beause  the  variance  of  the  variables  is  taken  into  consideration.  That's  the  proper  way  to  specify  the  model.  But  it's  really  nice  to  be  able  to  streamline  this  workflow  because  normally,  if  you  really  want  to  fit  a  confirmatory  factor  model  based  on  an  exploratory  factor  analysis,  you  would  have  to  put  these  constraints  by  hand. T hat's  really  tedious.  So  we've  made  it  very  easy.  These  latent  variables  have  loadings  that  are  fixed  to  known  values  from  a  previous  study,  from  a  previous  exploratory  analysis,  and  we  can  now  confirm  whether  or  not  that  factorial  structure  still  holds  with  a  new  sample.

One  thing  I  should  clarify  is  that  the  three  variables  that  did  not  have  substantial  factor  loadings  in  the  report  are  not  being  linked  to  any  of  the  latent  variables.  R eally,  we  don't  want  these  to  be  here  in  the  analysis.  W hat  I  can  do  is  the  red triangle  menu  also  has  an  option  for  removing  manifest  variables  from  the  analysis.

I'm  going  to  use  that  so  that  I  can  quickly  just  find  quality  3,  brand  3,  and  brand  5 a nd  I  can  just  click  Okay  to  get  rid  of  those  variables  because  I  don't  really  want  to  fit  my  model  with  them  in  there.  A gain,  now  I  can  just  run  this  model,  assess  the  fit,  and  figure  out  whether  I  can,  in  fact,  confirm  my  results  from  exploratory  factor  analysis  using  confirmatory  factor  analysis  in  SEM.  T hat  is  all  I  have  for  this  demo.  I  hope  that  this  is  helpful  and  I  look  forward  to  answering  all  your  questions  during  the  live  Q&A.  Thank  you  very  much.