Beste svaret
Det avhenger av nivået på statistikk og programmering, og av miljøet du jobber i.
R er sannsynligvis det beste alternativet hvis du har veldig gode programmeringsevner. Det er gratis og åpen kildekode, så du har tilgang til nesten alle slags statistiske funksjoner på jorden; det er imidlertid et programmeringsspråk, ikke en statistisk pakke, så det er relativt svakt på forsiden og bakenden – noe som betyr datainput og forberedelse, og formatering og utdata. Hvis du kan programmere, og bare vil ha tallene i stedet for en fancy utgang, er R sannsynligvis noe for deg.
Formelt er SAS nærmeste motstykke til SPSS, ved at det er en fullt strukturert og funksjonell statistikk pakke som kan håndtere alle oppgavene til dataanalyse fra begynnelse til slutt. Ulempen er at, i likhet med SPSS, ikke SAS er priset for den enkelte bruker, med lisenser som koster inn i de fem figurene. (I dette går det faktisk foran SPSS, som endret prispolitikken for å matche SAS bare etter mange år i virksomheten.) Så du ville være like lite sannsynlig å kjøpe SAS som du ville gjort med SPSS, men hvis du jobber i et selskap eller et universitet, du vil sannsynligvis ha tilgang til den.
Den mest populære statistiske pakken innen økonomisk rekkevidde for de fleste individuelle analytikere er Stata. Det gir et bredt spekter av datahåndterings- og analysefunksjoner til en pris som er mye lavere enn enten SAS eller SPSS (med enda lavere priser for studenter). Hvis du trenger en statistisk pakke og ikke er tilknyttet en enorm institusjon, kan dette være veien å gå.
Svar
Svaret på dette avhenger av mange faktorer. De største driverne i min erfaring er: 1). kjennskap til programmering / CS, 2). hvor du i programvaresyklusen trenger programvaren, 3). størrelsen på datasettet, 4). kostnadsfølsomhet og 5). grad hvor bærbarhet er viktig / storebror bekymrer.
1). Kjennskap til programmering / CS: Hvis du er veldig kjent med disse konseptene, er det ikke noe galt med C, JAVA, Fortran, Python eller R (oppført fra de fleste til minst utfordrende å bruke som en SPSS-erstatning etter min mening). Selv med R er det som folk ikke påpeker nok, brattheten i læringskurven for folk som ikke har mye programmeringserfaring. Det er ikke uoverstigelig, og det er mange ressurser der ute, men hvis du ikke har brukt en kommandolinje før, vil til og med R virke helt fremmed. Python har også noen gode pakker (scipy, numpy og Sage) og har fordelen av alle de andre bibliotekene, selv om det sannsynligvis er enda vanskeligere å bruke enn R for folk som ikke har mye programmeringserfaring. R har noen rimelige brukergrensesnitt og utviklingsmiljøer som er gratis, men de er fortsatt ikke så enkle å bruke som SPSS, SAS eller STATA.
2). Poeng i modelleringens livssyklus: Jeg vil karakterisere livssyklusen som å ha fire forskjellige punkter: databygging, datarensing og manipulering, dataanalyse og datapresentasjon. Hvis du er i enden av livssyklusen, begynner ting som MySQL å gi mye mening, fordi de er gode for å manipulere og lagre data. Hvis du vil hente nettet i stedet for bare å bruke strukturerte data, vil du igjen kreve et programmeringsspråk. For ren analyse er R, STATA, Python, SAS, MATLAB, S + og REvolution nyttige i noen grad. Til slutt, hvis presentasjon er viktigst for deg, er Latex noe du tror at kondomer er laget av, så tror jeg at SPSS og i mindre grad SAS er de beste alternativene. Fordi R-grafikk ikke er objektorientert, har de en utrolig bratt læringskurve (selv om de er rimelige når du blir kjent med dem). Fin og brukervennlig presentasjon som er mer eller mindre ute av esken er noe du trenger å betale for er noe jeg vil si har vært min erfaring.
3). Hvis du jobber med big data (1 GB + vil jeg si), må du enten betale for en programvare som kan håndtere den via cachingsystemene deres (SPSS, SAS eller REvolution) eller bruke et databasesystem. Naturligvis er det også mulig å skrive din egen kode, men det kan være utfordrende.
4). Kostnadsfølsomhet: gratisvaren som er oppført, kommer med fordelen av prislappen.
5). Etter å ha jobbet i en organisasjon der dette faktisk skjedde, kan jeg definitivt si at folk skal være opptatt av måten SAS håndterer lisensiering på. I motsetning til MATLAB, SPSS eller de fleste andre programvare, har SAS språk i brukerkontrakten som gjør at de kan kreve rettighetene til IP-en din hvis det avhenger av pakker i SAS. Vi måtte slutte å bruke SAS når de bestemte seg for at de ønsket å komme inn i vår bransje, og så alle disse bibliotekene med SAS-kode er nå ubrukelige (noen kan kjøres på WPS, men de fleste kan ikke). Selvfølgelig kunne vi ha betalt 50 ganger mer for lisensene, men vi bestemte oss for å avstå. Å holde all egen programvare i hjertet av en organisasjon kan være ekstremt risikabelt.Jeg har funnet at R og databaser er en utmerket erstatning for omtrent alt annet enn tegning og umiddelbart lesbar utdata.