R을 많이 사용한다고는 하지만 개인적으로 STATA로 입문을 해서 그런지, STATA에 손이 더 많이 간다.
이번 글은 기초적인 STATA 활용법을 다루도록 한다.
STATA 14.2 맥용 버젼을 사용한다. 15도 나왔다고 하지만 업데이트가 될 때 마다 살 수 있는 프로그램은 아닌 것 같다...
데이터는 설명의 편의상 KGSS를 사용한다. (성균관대학교 서베이리서치센터에 접속하여 다운받을 수 있다)
2014년 데이터를 클릭하면 .sav 파일이 다운되는데 이는 KGSS가 SPSS 형식으로만 데이터를 제공하고있기 때문이다.
STATA의 경우 .sav 파일을 직접 열 수 있는 방법이 없기 때문에 다음과 같은 방법을 생각해볼 수 있다.
1) SPSS를 이용하여 파일을 연 후 .dta 파일 형태로 저장한다
2) R을 이용하여 .sav파일을 .dta 파일 형태로 저장한다
3) STATA 내에서 프로그램을 사용하여 .sav 파일을 연다
SPSS가 설치되어있지 않고 STATA의 기초적 활용이기 때문에 3번 방법을 사용하기로 한다.
0) .sav 파일 .dta 형태로 변환하기
usespss 프로그램을 다운받야아 변환할 수 있다. Stata 커맨드 창에 다음과 같이 입력하도록 하자.
search usespss
다음과 같은 화면이 뜰 것이다.
usespss를 클릭 한 후 밑에 나오는 'click here to install'을 누르면 곧 설치가 된다.
이제 간단하게 다음과 같은 명령어로 spss파일을 열 수 있다
usespss using "디렉토리명/파일명.sav"
안 된다....어째서 32비트 윈도우용으로만 만드는거지.....
어쩔 수 없이 다른 방법을 찾아보려고 했는데 R을 사용하거나 귀찮지만 SPSS를 다운받거나 SPSS를 설치한 동료에게 도움을 구하도록 하자.
1) 유니코드 적용하기
성공적으로 변환한 .dta파일을 열면 다음과 같은 화면이 나타날 것이다
하아...유니코드 적용이 되지 않기 때문에 한글로 된 변수명(label)이 다 깨져서 보인다.
OS 문제인지 STATA 버전 문제인지 정확하지 않지만 아무튼 해결해보자.
순서는 다음과 같다.
1) clear를 통해서 메모리를 지워준다
2) cd를 통해서 작업 폴더를 지정해준다
3) unicode encoding set를 통해서 변환활 언어 인코딩 설정을 해준다
4) unicode translate를 통해서 변환을 해준다.
코드는 다음과 같으며, 한 번에 입력하는 것이 아니라 매 줄 따로 입력해줘야 한다.
clear
cd "디렉토리"
unicode encoding set euc-kr
unicode translate *.dta, transutf8 invalid(ignore)
결과 창은 대략 이렇게 보일 것이다
성공적이다. 이제 다시 .dta 파일을 열면 변수 label에서 한글이 안 깨지고 잘 보이는 것을 확인할 수 있다.
분석도 하기 전에 파일 변환하는데 지쳤으니 본격적 데이터 클리닝 작업은 다음에 알아보도록 하자.
'STATA' 카테고리의 다른 글
STATA 노동패널 데이터 만들기 1 (4) | 2018.05.28 |
---|---|
STATA 입문하기 (0) | 2018.01.04 |