Meilleure réponse
Cela dépend de votre niveau de sophistication statistique et de programmation, et de lenvironnement dans lequel vous travaillez.
R est probablement la meilleure alternative si vous avez de très bonnes compétences en programmation. Il est gratuit et open source, vous avez donc accès à presque tous les types de fonctions statistiques sur terre; cependant, c’est un langage de programmation, pas un progiciel statistique, il est donc relativement faible à l’avant et à l’arrière-plan – ce qui signifie l’entrée et la préparation des données, ainsi que le formatage et la sortie. Si vous pouvez programmer, et que vous voulez juste les nombres plutôt quune sortie sophistiquée, R est probablement pour vous.
Formellement, SAS est le pendant le plus proche de SPSS, en ce sens quil sagit dune statistique entièrement structurée et fonctionnelle package qui peut gérer toutes les tâches danalyse des données du début à la fin. Linconvénient est que, comme SPSS, SAS nest pas tarifé pour lutilisateur individuel, les licences coûtant dans les cinq chiffres. (En cela, il précède en fait SPSS, qui a changé sa politique de prix pour correspondre à SAS seulement après de nombreuses années dactivité.) Il serait donc aussi improbable dacheter SAS que SPSS, mais si vous travaillez dans une entreprise ou une université, vous y auriez probablement accès.
Le progiciel statistique le plus populaire dans la portée financière de la plupart des analystes individuels est Stata. Il fournit une large gamme de fonctions de traitement et danalyse des données à un prix bien inférieur à SAS ou SPSS (avec des prix encore plus bas pour les étudiants). Si vous avez besoin dun logiciel statistique et que vous nêtes pas connecté à une grande institution, cest peut-être la voie à suivre.
Réponse
La réponse à cela dépend de nombreux facteurs. Les plus gros pilotes de mon expérience sont: 1). connaissance de la programmation / CS, 2). où dans le cycle de vie de la modélisation vous avez besoin du logiciel, 3). taille de lensemble de données, 4). sensibilité aux coûts et 5). degré auquel la portabilité est importante / préoccupations du grand frère.
1). Familiarité avec la programmation / CS: Si vous êtes très familier avec ces concepts, il ny a rien de mal avec C, JAVA, Fortran, Python ou R (énumérés du plus au moins difficile à utiliser comme substitut SPSS à mon avis). Même avec R, ce que les gens ne soulignent pas assez, cest la pente de la courbe dapprentissage pour les personnes qui nont pas beaucoup dexpérience en programmation. Ce nest pas insurmontable et il y a beaucoup de ressources là-bas, mais si vous navez pas utilisé de ligne de commande auparavant, même R vous semblera complètement étranger. Python a également dexcellents packages (scipy, numpy et Sage) et a lavantage de toutes les autres bibliothèques, bien quil soit probablement encore plus difficile à utiliser que R pour les personnes qui nont pas beaucoup dexpérience en programmation. R a des interfaces graphiques et des environnements de développement raisonnables et gratuits, mais ils ne sont toujours pas aussi faciles à utiliser que SPSS, SAS ou STATA.
2). Point dans le cycle de vie de la modélisation: Je caractériserais le cycle de vie comme ayant quatre points différents: la construction de données, le nettoyage et la manipulation des données, lanalyse des données et la présentation des données. Si vous êtes à lavant-garde du cycle de vie, des choses comme MySQL commencent à avoir beaucoup de sens car elles sont parfaites pour manipuler et stocker des données. Si vous souhaitez vous procurer le Web plutôt que dutiliser simplement des données structurées, vous aurez à nouveau besoin dun langage de programmation. Pour lanalyse pure, R, STATA, Python, SAS, MATLAB, S + et REvolution sont tous utiles dans une certaine mesure. Enfin, si la présentation est la plus importante pour vous, le latex est quelque chose à partir duquel vous pensez que les préservatifs sont fabriqués, alors je pense que SPSS et, dans une moindre mesure, SAS sont vos meilleures options. Parce que les graphiques R ne sont pas orientés objet, ils ont une courbe dapprentissage incroyablement abrupte (bien quils soient raisonnables une fois que vous les connaissez). Une présentation agréable et facile à utiliser qui est plus ou moins prête à lemploi est quelque chose que vous devez payer, je dirais que cest mon expérience.
3). Si vous travaillez avec du Big Data (1 Go + je dirais), vous devez soit payer pour un logiciel capable de le gérer via leurs systèmes de mise en cache (SPSS, SAS ou REvolution), soit utiliser un système de base de données. Naturellement, écrire votre propre code est également une option, mais peut être difficile.
4). Sensibilité au coût: le logiciel gratuit répertorié a lavantage de son prix.
5). Ayant travaillé dans une organisation où cela sest réellement produit, je peux certainement dire que les gens devraient se préoccuper de la façon dont SAS gère ses licences. Contrairement à MATLAB, SPSS ou la plupart des autres logiciels, SAS a une langue dans son contrat dutilisation qui leur permet de revendiquer les droits sur votre adresse IP si elle dépend de packages en SAS. Nous avons dû arrêter dutiliser SAS une fois quils ont décidé quils voulaient entrer dans notre secteur dactivité et donc toutes ces bibliothèques de code SAS sont désormais inutiles (certaines peuvent être exécutées sur WPS mais la plupart ne le peuvent pas). Bien sûr, nous aurions pu payer 50 fois plus pour nos licences mais nous avons décidé de nous abstenir. Garder tout logiciel propriétaire au cœur dune organisation peut être extrêmement risqué.Jai trouvé que R et les bases de données étaient un excellent substitut pour à peu près tout autre que la représentation graphique et une sortie immédiatement lisible.