Beste antwoord
Het hangt af van uw niveau van statistische en programmeervaardigheid en van de omgeving waarin u werkt.
R is waarschijnlijk het beste alternatief als je over zeer goede programmeervaardigheden beschikt. Het is gratis en open-source, dus je hebt toegang tot bijna elke statistische functie op aarde; het is echter een programmeertaal, geen statistisch pakket, dus het is relatief zwak aan de voor- en achterkant – wat betekent dat er gegevens worden ingevoerd en voorbereid, en opmaak en uitvoer. Als je kunt programmeren en gewoon de cijfers wilt in plaats van een mooie uitvoer, dan is R waarschijnlijk iets voor jou.
Formeel gezien is SAS de beste tegenhanger van SPSS, in die zin dat het een volledig gestructureerde en functionele statistische pakket dat alle taken van data-analyse van begin tot eind aankan. Het nadeel is dat SAS, net als SPSS, niet geprijsd is voor de individuele gebruiker, waarbij licenties in de vijf cijfers worden gerekend. (Hierin gaat het eigenlijk vooraf aan SPSS, dat zijn prijsbeleid pas na vele jaren in het bedrijfsleven veranderde om overeen te stemmen met SAS.) Het is dus net zo onwaarschijnlijk dat u SAS koopt als SPSS, maar als u in een bedrijf of een universiteit werkt, u zou er waarschijnlijk toegang toe hebben.
Het meest populaire statistische pakket binnen het financiële bereik van de meeste individuele analisten is Stata. Het biedt een breed scala aan gegevensverwerkings- en analysefuncties tegen een prijs die veel lager is dan SAS of SPSS (met nog lagere prijzen voor studenten). Als je een statistisch pakket nodig hebt en niet verbonden bent met een grote instelling, is dit misschien de juiste keuze.
Antwoord
Het antwoord hierop hangt van veel factoren af. De grootste drijfveren in mijn ervaring zijn: 1). bekendheid met programmeren / CS, 2). waar in de modellering levenscyclus je de software nodig hebt, 3). grootte van dataset, 4). kostengevoeligheid en 5). mate waarin draagbaarheid belangrijk is / bezorgdheid over de grote broer.
1). Bekendheid met programmeren / CS: als je goed bekend bent met deze concepten, dan is er niets mis met C, JAVA, Fortran, Python of R (naar mijn mening opgesomd van meest naar minst uitdagend om als SPSS-substituut te gebruiken). Zelfs met R is het ding waar mensen niet genoeg op wijzen, de steilheid van de leercurve voor mensen die niet veel programmeerervaring hebben. Het is niet onoverkomelijk en er zijn veel bronnen beschikbaar, maar als je nog niet eerder een opdrachtregel hebt gebruikt, zal zelfs R volkomen vreemd lijken. Python heeft ook een aantal geweldige pakketten (scipy, numpy en Sage) en heeft het voordeel van alle andere bibliotheken, hoewel het waarschijnlijk nog moeilijker te gebruiken is dan R voor mensen die niet veel programmeerervaring hebben. R heeft een aantal redelijke GUIs en ontwikkelomgevingen die gratis zijn, maar ze zijn nog lang niet zo eenvoudig te gebruiken als SPSS, SAS of STATA.
2). Punt in de modellerende levenscyclus: ik zou de levenscyclus karakteriseren als vier verschillende punten: gegevensopbouw, gegevensopschoning en -manipulatie, gegevensanalyse en gegevenspresentatie. Als u zich aan de voorkant van de levenscyclus bevindt, beginnen zaken als MySQL veel zin te krijgen, omdat ze geweldig zijn voor het manipuleren en opslaan van gegevens. Als u het web wilt zoeken in plaats van alleen gestructureerde gegevens te gebruiken, heeft u opnieuw een programmeertaal nodig. Voor pure analyse zijn R, STATA, Python, SAS, MATLAB, S + en REvolution allemaal tot op zekere hoogte bruikbaar. Tot slot, als presentatie voor jou het belangrijkst is, is latex iets waarvan je denkt dat condooms gemaakt zijn, dan denk ik dat SPSS en in mindere mate SAS je beste opties zijn. Omdat R-graphics niet objectgeoriënteerd zijn, hebben ze een ongelooflijk steile leercurve (hoewel ze redelijk zijn als je ze eenmaal leert kennen). Een leuke en gemakkelijk te gebruiken presentatie die min of meer uit de doos komt, is iets waarvoor je moet betalen, zou ik zeggen dat het mijn ervaring is.
3). Als je met big data werkt (1GB + zou ik zeggen), dan moet je ofwel betalen voor software die het aankan via hun cachingsystemen (SPSS, SAS of REvolution) of een databasesysteem gebruiken. Het schrijven van uw eigen code is natuurlijk ook een optie, maar kan een uitdaging zijn.
4). Kostengevoeligheid: de vermelde freeware heeft het voordeel van zijn prijskaartje.
5). Omdat ik bij een organisatie heb gewerkt waar dit ook daadwerkelijk is gebeurd, kan ik zeker zeggen dat mensen zich zorgen moeten maken over de manier waarop SAS omgaat met licenties. In tegenstelling tot MATLAB, SPSS of de meeste andere software, heeft SAS een taal in hun gebruikerscontract waarmee ze de rechten op uw IP kunnen claimen als dit afhankelijk is van pakketten in SAS. We moesten stoppen met het gebruik van SAS toen ze besloten dat ze in onze branche wilden komen en dus zijn al die bibliotheken met SAS-code nu nutteloos (sommige kunnen op WPS worden uitgevoerd, maar de meeste niet). We hadden natuurlijk 50 keer meer kunnen betalen voor onze licenties, maar we besloten ons van stemming te onthouden. Eigen software centraal houden in een organisatie kan zeer riskant zijn.Ik heb ontdekt dat R en databases een uitstekende vervanging zijn voor zo ongeveer alles behalve grafieken en direct leesbare uitvoer.