Beste Antwort
Dies hängt von Ihrem statistischen und programmtechnischen Niveau sowie von der Umgebung ab, in der Sie arbeiten.
R ist wahrscheinlich die beste Alternative, wenn Sie über sehr gute Programmierkenntnisse verfügen. Es ist kostenlos und Open Source, sodass Sie Zugriff auf nahezu alle statistischen Funktionen der Welt haben. Es handelt sich jedoch um eine Programmiersprache und nicht um ein Statistikpaket. Daher ist es am vorderen und hinteren Ende vergleichsweise schwach – dh Dateneingabe und -vorbereitung sowie Formatierung und Ausgabe. Wenn Sie programmieren können und nur die Zahlen anstelle einer ausgefallenen Ausgabe möchten, ist R wahrscheinlich das Richtige für Sie.
Formal ist SAS das engste Gegenstück zu SPSS, da es sich um eine vollständig strukturierte und funktionale Statistik handelt Paket, das alle Aufgaben der Datenanalyse von Anfang bis Ende erledigen kann. Der Nachteil ist, dass SAS wie SPSS nicht für den einzelnen Benutzer angeboten wird, da die Lizenzen im fünfstelligen Bereich liegen. (In diesem Fall geht es SPSS voraus, das seine Preispolitik erst nach vielen Jahren im Geschäft an SAS angepasst hat.) Es ist also genauso unwahrscheinlich, dass Sie SAS kaufen wie SPSS, aber wenn Sie in einem Unternehmen oder einer Universität arbeiten, Sie hätten wahrscheinlich Zugriff darauf.
Das beliebteste statistische Paket in finanzieller Reichweite der meisten einzelnen Analysten ist Stata. Es bietet eine breite Palette von Datenverarbeitungs- und Analysefunktionen zu einem Preis, der viel niedriger ist als bei SAS oder SPSS (mit noch niedrigeren Preisen für Studenten). Wenn Sie ein Statistikpaket benötigen und nicht mit einer großen Institution verbunden sind, ist dies möglicherweise der richtige Weg.
Antwort
Die Antwort darauf hängt von vielen Faktoren ab. Die größten Treiber meiner Erfahrung nach sind: 1). Vertrautheit mit Programmierung / CS, 2). Wo im Modellierungslebenszyklus die Software benötigt wird, 3). Größe des Datensatzes, 4). Kostensensitivität und 5). Grad, in dem Portabilität wichtig ist / Bedenken des großen Bruders.
1). Vertrautheit mit Programmierung / CS: Wenn Sie mit diesen Konzepten sehr vertraut sind, ist C, JAVA, Fortran, Python oder R (meiner Meinung nach als SPSS-Ersatz am schwierigsten zu verwenden) nicht zu beanstanden. Selbst mit R ist das, worauf die Leute nicht genug hinweisen, die Steilheit der Lernkurve für Leute, die nicht viel Programmiererfahrung haben. Es ist nicht unüberwindbar und es gibt viele Ressourcen da draußen, aber wenn Sie vorher keine Befehlszeile verwendet haben, wird sogar R völlig fremd erscheinen. Python hat auch einige großartige Pakete (scipy, numpy und Sage) und hat den Vorteil aller anderen Bibliotheken, obwohl es wahrscheinlich noch schwieriger zu verwenden ist als R für Leute, die nicht viel Programmiererfahrung haben. R verfügt über einige vernünftige GUIs und Entwicklungsumgebungen, die kostenlos sind, aber bei weitem nicht so einfach zu verwenden sind wie SPSS, SAS oder STATA.
2). Punkt im Modellierungslebenszyklus: Ich würde den Lebenszyklus mit vier verschiedenen Punkten charakterisieren: Datenerstellung, Datenbereinigung und -manipulation, Datenanalyse und Datenpräsentation. Wenn Sie sich am Anfang des Lebenszyklus befinden, sind Dinge wie MySQL sehr sinnvoll, da sie sich hervorragend zum Bearbeiten und Speichern von Daten eignen. Wenn Sie das Web beschaffen möchten, anstatt nur strukturierte Daten zu verwenden, benötigen Sie erneut eine Programmiersprache. Für die reine Analyse sind R, STATA, Python, SAS, MATLAB, S + und REvolution bis zu einem gewissen Grad nützlich. Wenn die Präsentation für Sie am wichtigsten ist, ist Latex Ihrer Meinung nach aus Kondomen hergestellt. Ich denke, dass SPSS und in geringerem Maße SAS Ihre besten Optionen sind. Da R-Grafiken nicht objektorientiert sind, haben sie eine unglaublich steile Lernkurve (obwohl sie vernünftig sind, sobald Sie sie kennenlernen). Eine schöne und benutzerfreundliche Präsentation, die mehr oder weniger sofort einsatzbereit ist, ist etwas, für das Sie bezahlen müssen. Ich würde sagen, das war meine Erfahrung.
3). Wenn Sie mit Big Data arbeiten (1 GB + würde ich sagen), müssen Sie entweder für eine Software bezahlen, die diese über ihre Caching-Systeme (SPSS, SAS oder REvolution) verarbeiten kann, oder ein Datenbanksystem verwenden. Natürlich ist das Schreiben eines eigenen Codes ebenfalls eine Option, kann jedoch eine Herausforderung darstellen.
4). Kostensensitivität: Die aufgelistete Freeware profitiert von ihrem Preisschild.
5). Nachdem ich in einer Organisation gearbeitet habe, in der dies tatsächlich passiert ist, kann ich definitiv sagen, dass sich die Leute mit der Art und Weise befassen sollten, wie SAS mit der Lizenzierung umgeht. Im Gegensatz zu MATLAB, SPSS oder den meisten anderen Programmen enthält SAS in seinem Benutzervertrag eine Sprache, mit der sie die Rechte an Ihrer IP beanspruchen können, wenn dies von Paketen in SAS abhängt. Wir mussten die Verwendung von SAS einstellen, sobald sie beschlossen hatten, in unsere Branche einzusteigen, und daher sind alle diese Bibliotheken mit SAS-Code jetzt unbrauchbar (einige können auf WPS ausgeführt werden, die meisten jedoch nicht). Natürlich hätten wir 50-mal mehr für unsere Lizenzen bezahlen können, aber wir haben beschlossen, uns zu enthalten. Es kann äußerst riskant sein, proprietäre Software im Herzen eines Unternehmens zu halten.Ich habe festgestellt, dass R und Datenbanken ein hervorragender Ersatz für fast alles andere als Grafik und sofort lesbare Ausgabe sind.