demande de conseils !!!!!

bonjour à tous,
je suis en doctorat de sciences de gestion, et suis actuellement en train de travailler sur mes données. les variables sont de nature nominales et sont à peu près au nombre de 120; quant aux observations suivant le secteur analysé, il y en a entre 1000 et 7000.
j'ai établi un modèle causale liant les concepts d'entrepreneur, d'organisation et de processus à la survie de l'entreprise voir l'image du modèle :
or je n'ai pas réussi à réaliser une analyse valable avec les données nominales,
ainsi, j'ai transformé toutes mes variables nominales en variables dichotomiques binaires, afin de pouvoir utiliser la régression logistique binaire. j'ai obtenu des résultats intéressants, avec un r-deux de nagelkerke de plus de 75 % et une prévision des taux de survie de plus de 92%.
la première des questions que je me pose est de savoir si ce test statistique rend bien compte du modèle que je souhaite analyser

ou si il me faudra dans un deuxième temps réaliser une étude des premiers résultats d'une autre manière (avec lisrel ou amos par exemple).
mes questions sont ensuite relatives aux sorties.
en effet, je me demande si quelqu'un pourrai m'éclairer un petit peu sur les méthodes d'interpretations des coefficients de cette régressions. ensuite, dans un deuxième temps, quelle méthode de sélection des variables (ascendante, descendante, de wald, de vraisemblance...) est la plus robuste et fiable ??et enfin, pensez vous que cette technique statistique en tant que telle puisse etre suffisamment robuste pour souffrire la critique d'un comité de thèse ??? en fait est-elle réellement valable au niveau d'un travail de thèse si elle est utilisée seule????
je vous remercie par avance des conseil que vous pourrez me prodiguer !
bien cordialement
gael

Modif : j'ai fait apparaitre l'image du schéma dans le post, en supposant qu'elle ne vient pas d'un livre, car alors il aurait fallu en indiquer les références.

Salut,

Question : Pourquoi ton analyse sur les données nominales n'est elle pas valable?
Mais si tu as réussi à les transformer en var. binaires, normalement, ça simplifie le modèle.
Si je comprend bien tu as expliqué la survie en fonction des autres variables. Pour l'interprétation des coeff., c'est à toi de le faire mais l'interprétation est différente suivant si ton modèle est avec interactions ou pas.
Le R^2=75% donne la proportion de variance expliquée, c'est le rapport de la variance expliquée par ton modèle (ESS) sur la variance totale calculée empiriquement entre les données et leur moyenne (TSS).

En fait, pour sélectionner les variables, tu peux faire une méthode descendante :

Tu sélectionne tous tes régresseurs initialement, tu calcule le RSS (c'est la variance résiduelle : TSS=ESS+RSS). Après t'enlève un régresseur et tu calcule le nouveau RSS avec ce modèle. Avec ça tu peux faire un test de détérioration statistique :
Accepter 'modèle détérioré' si (n-k)*[RSS(k-1)-RSS(k)]/RSS(k)≥f(1,n-k)[1-alpha]
avec f(1,n-k)[1-alpha] fonction quantile d'une loi de Fisher avec 1 et n-k degrés de liberté en 1-alpha. Alpha est le niveau du test.
Si c'est accepté tu stop et tu as un nombre de régresseur qui te permettent de minimiser la perte d'information statistiquement parlant.

En espérant t'avoir aidé.

Excuse-moi mais ce test est valable en régression linéaire gaussienne!
En fait toi tu dois avoir P(survie=1)=1/(1+exp(-xB)) avec B les coeff. et x les régresseurs.
Après comme ta variable à expliquer est soit 0 soit 1, tu a dû tester le modèle sur des données puis comparé avec les vrais résultats pour obtenir un taux d'erreur théorique (le 92%?).
Après tu peux appliquer des méthodes d'analyse de données : analyse de corrélation, en composante principale, classification (ward), méthode hiérarchique descendante. Pour obtenir une règle de décision (intéressant dans ton cas) un arbre de segmentation (avec la minimisation de l'indice d'impureté de Gini) peut être intéressant.