Migliore risposta
Dipende dal tuo livello di sofisticazione statistica e di programmazione e dallambiente in cui lavori.
R è probabilmente la migliore alternativa se hai ottime capacità di programmazione. È gratuito e open source, quindi hai accesso a quasi ogni tipo di funzione statistica sulla terra; tuttavia, è un linguaggio di programmazione, non un pacchetto statistico, quindi è relativamente debole sul fronte e sul retro, ovvero input e preparazione dei dati, formattazione e output. Se puoi programmare e desideri solo i numeri piuttosto che un output di fantasia, R è probabilmente per te.
Formalmente, SAS è la controparte più vicina a SPSS, in quanto è una statistica completamente strutturata e funzionale pacchetto in grado di gestire tutte le attività di analisi dei dati dallinizio alla fine. Lo svantaggio è che, come SPSS, SAS non ha un prezzo per il singolo utente, con licenze che costano fino a cinque cifre. (In questo, in realtà precede SPSS, che ha cambiato la sua politica dei prezzi per adeguarsi a SAS solo dopo molti anni di attività.) Quindi è improbabile che acquisti SAS come lo faresti con SPSS, ma se lavori in unazienda o in ununiversità, probabilmente avresti accesso ad esso.
Il pacchetto statistico più popolare nella portata finanziaria della maggior parte dei singoli analisti è Stata. Fornisce unampia gamma di funzioni di gestione e analisi dei dati a un prezzo molto inferiore rispetto a SAS o SPSS (con prezzi ancora più bassi per gli studenti). Se hai bisogno di un pacchetto statistico e non sei collegato a unistituzione enorme, questa potrebbe essere la strada da percorrere.
Risposta
La risposta a questa domanda dipende da molti fattori. I più grandi driver nella mia esperienza sono: 1). familiarità con la programmazione / CS, 2). dove nel ciclo di vita della modellazione è necessario il software, 3). dimensione del set di dati, 4). sensibilità ai costi e 5). grado in cui la portabilità è importante / preoccupazioni del fratello maggiore.
1). Familiarità con la programmazione / CS: se hai molta familiarità con questi concetti, non cè niente di sbagliato in C, JAVA, Fortran, Python o R (elencati dal più al meno impegnativo da usare come sostituto di SPSS secondo me). Anche con R la cosa che le persone non sottolineano abbastanza è la ripidità della curva di apprendimento per le persone che non hanno molta esperienza di programmazione. Non è insormontabile e ci sono molte risorse là fuori, ma se non hai usato una riga di comando prima, anche R sembrerà completamente estraneo. Python ha anche alcuni ottimi pacchetti (scipy, numpy e Sage) e ha il vantaggio di tutte le altre librerie, anche se probabilmente è anche più difficile da usare rispetto a R per le persone che non hanno molta esperienza di programmazione. R ha alcune GUI ragionevoli e ambienti di sviluppo gratuiti, ma non sono ancora così facili da usare come SPSS, SAS o STATA.
2). Punto nel ciclo di vita della modellazione: definirei il ciclo di vita come avente quattro punti diversi: costruzione dei dati, pulizia e manipolazione dei dati, analisi dei dati e presentazione dei dati. Se sei allinizio del ciclo di vita, cose come MySQL iniziano ad avere molto senso perché sono ottime per manipolare e archiviare dati. Se desideri reperire il Web anziché utilizzare solo dati strutturati, avrai nuovamente bisogno di un linguaggio di programmazione. Per lanalisi pura R, STATA, Python, SAS, MATLAB, S + e REvolution sono tutti utili in una certa misura. Infine, se la presentazione è più importante per te Latex è qualcosa da cui pensi che i preservativi siano fatti, allora penso che SPSS e, in misura minore, SAS siano le tue migliori opzioni. Poiché i grafici R non sono orientati agli oggetti, hanno una curva di apprendimento incredibilmente ripida (sebbene siano ragionevoli una volta che li conosci). Una presentazione piacevole e facile da usare che è più o meno fuori dagli schemi è qualcosa per cui devi pagare è qualcosa che direi è stata la mia esperienza.
3). Se stai lavorando con big data (direi 1 GB +), devi pagare per un software in grado di gestirlo tramite i loro sistemi di cache (SPSS, SAS o REvolution) o utilizzare un sistema di database. Naturalmente anche scrivere il proprio codice è unopzione, ma può essere impegnativo.
4). Sensibilità ai costi: il freeware elencato viene fornito con il vantaggio del suo prezzo.
5). Avendo lavorato in unorganizzazione in cui ciò è realmente accaduto, posso sicuramente dire che le persone dovrebbero essere interessate al modo in cui SAS gestisce le sue licenze. A differenza di MATLAB, SPSS o della maggior parte degli altri software, SAS ha un linguaggio nel contratto utente che consente loro di rivendicare i diritti sul tuo IP se dipende dai pacchetti in SAS. Abbiamo dovuto smettere di usare SAS una volta deciso che volevano entrare nel nostro settore di attività e quindi tutte quelle librerie di codice SAS sono ora inutili (alcune possono essere eseguite su WPS ma la maggior parte no). Ovviamente avremmo potuto pagare 50 volte di più per le nostre licenze, ma abbiamo deciso di astenerci. Mantenere qualsiasi software proprietario al centro di unorganizzazione può essere estremamente rischioso.Ho scoperto che R e i database sono un eccellente sostituto di quasi tutto tranne la rappresentazione grafica e loutput immediatamente leggibile.