Najlepsza odpowiedź
To zależy od Twojego poziomu zaawansowania statystycznego i programowania oraz od środowiska, w którym pracujesz.
R to prawdopodobnie najlepsza alternatywa, jeśli masz bardzo dobre umiejętności programistyczne. Jest darmowy i ma otwarte oprogramowanie, więc masz dostęp do prawie każdego rodzaju funkcji statystycznych na Ziemi; jest to jednak język programowania, a nie pakiet statystyczny, więc jest stosunkowo słaby na początku i na końcu – co oznacza wprowadzanie i przygotowywanie danych oraz formatowanie i wyprowadzanie. Jeśli potrafisz programować i po prostu chcesz liczb, a nie fantazyjnych wyników, R jest prawdopodobnie dla Ciebie.
Formalnie SAS jest najbliższym odpowiednikiem SPSS, ponieważ jest w pełni ustrukturyzowaną i funkcjonalną statystyką pakiet, który może obsłużyć wszystkie zadania analizy danych od początku do końca. Wadą jest to, że podobnie jak SPSS, SAS nie jest wyceniany dla indywidualnego użytkownika, a licencje kosztują pięć cyfr. (W tym przypadku faktycznie poprzedza SPSS, który zmienił swoją politykę cenową, aby dopasować ją do SAS dopiero po wielu latach działalności.) Więc zakup SAS byłby tak samo mało prawdopodobne jak SPSS, ale jeśli pracujesz w korporacji lub na uniwersytecie prawdopodobnie miałbyś do niego dostęp.
Najpopularniejszym pakietem statystycznym w zakresie finansowym większości indywidualnych analityków jest Stata. Zapewnia szeroki zakres funkcji przetwarzania i analizy danych w cenie znacznie niższej niż SAS lub SPSS (z jeszcze niższymi cenami dla studentów). Jeśli potrzebujesz pakietu statystycznego i nie jesteś związany z wielką instytucją, może to być dobry sposób.
Odpowiedź
Odpowiedź na to pytanie zależy od wielu czynników. Z mojego doświadczenia wynika, że największymi czynnikami są: 1). znajomość programowania / CS, 2). gdzie w cyklu życia modelowania potrzebujesz oprogramowania, 3). rozmiar zbioru danych, 4). wrażliwość kosztowa i 5). stopień, w jakim przenośność jest ważna / dotyczy dużego brata.
1). Znajomość programowania / CS: Jeśli dobrze znasz te koncepcje, nie ma nic złego w C, JAVA, Fortran, Python lub R (wymienione od najbardziej do najmniej trudnych do użycia jako substytut SPSS w mojej opinii). Nawet z R rzeczą, na którą ludzie nie zwracają uwagi, jest stroma krzywa uczenia się dla osób, które nie mają dużego doświadczenia w programowaniu. Nie jest to nie do pokonania i istnieje wiele zasobów, ale jeśli wcześniej nie korzystałeś z wiersza poleceń, nawet R będzie wydawać się całkowicie obcy. Python ma również kilka świetnych pakietów (scipy, numpy i Sage) i ma przewagę nad wszystkimi innymi bibliotekami, chociaż prawdopodobnie jest jeszcze trudniejszy w użyciu niż R dla osób, które nie mają dużego doświadczenia w programowaniu. R ma kilka rozsądnych GUI i środowisk programistycznych, które są bezpłatne, ale nadal nie są tak łatwe w użyciu jak SPSS, SAS czy STATA.
2). Punkt w cyklu życia modelowania: scharakteryzowałbym cykl życia jako mający cztery różne punkty: tworzenie danych, czyszczenie i manipulowanie danymi, analiza danych i prezentacja danych. Jeśli jesteś na początku cyklu życia, rzeczy takie jak MySQL zaczynają mieć dużo sensu, ponieważ są świetne do manipulowania i przechowywania danych. Jeśli chcesz korzystać z internetu, a nie tylko używać danych strukturalnych, po raz kolejny będziesz potrzebować języka programowania. Do czystej analizy przydatne są do pewnego stopnia R, STATA, Python, SAS, MATLAB, S + i REvolution. Wreszcie, jeśli prezentacja jest dla Ciebie najważniejsza, lateks jest czymś, z czego według Ciebie są zrobione prezerwatywy, to myślę, że SPSS i w mniejszym stopniu SAS są najlepszymi opcjami. Ponieważ grafiki R nie są zorientowane obiektowo, mają niewiarygodnie stromą krzywą uczenia się (chociaż są rozsądne, gdy je poznasz). Ładna i łatwa w użyciu prezentacja, która jest mniej więcej po wyjęciu z pudełka, to coś, za co trzeba zapłacić, powiedziałbym, że jest to moje doświadczenie.
3). Jeśli pracujesz z dużymi zbiorami danych (powiedziałbym, że 1 GB +), musisz albo zapłacić za oprogramowanie, które poradzi sobie z tym za pośrednictwem ich systemów buforowania (SPSS, SAS lub REvolution) lub użyć systemu bazy danych. Oczywiście napisanie własnego kodu jest również opcją, ale może być trudne.
4). Wrażliwość na koszty: wymienione darmowe oprogramowanie ma tę zaletę, że ma swoją cenę.
5). Pracując w organizacji, w której to się faktycznie wydarzyło, mogę zdecydowanie powiedzieć, że ludzie powinni martwić się sposobem, w jaki SAS traktuje swoje licencje. W przeciwieństwie do MATLAB, SPSS lub większości innych programów, SAS ma język w umowie użytkownika, który pozwala im dochodzić praw do Twojego adresu IP, jeśli zależy to od pakietów w SAS. Musieliśmy przestać używać SAS, gdy zdecydowali, że chcą wejść do naszej branży, więc wszystkie te biblioteki kodu SAS są teraz bezużyteczne (niektóre można uruchomić na WPS, ale większość nie może). Oczywiście mogliśmy zapłacić 50 razy więcej za nasze licencje, ale zdecydowaliśmy się wstrzymać od głosu. Utrzymywanie prawnie zastrzeżonego oprogramowania w sercu organizacji może być niezwykle ryzykowne.Odkryłem, że R i bazy danych są doskonałym substytutem prawie wszystkiego innego niż tworzenie wykresów i natychmiastowo czytelne dane wyjściowe.