UX에서 중요한 부분 중 하나인 데이터 분석에서 데이터 시각화를 배워보았다!
조건부 서식, 피벗테이블, 슬라이서 등을 중점으로 row data를 전처리하고 모델링하고 시각화까지 이루어질 수 있다.
데이터의 형태부터 차트와 같은 시각화까지 알아보자!
형태와 형식
데이터베이스는 데이터의 형태와 형식이 맞아야 삽입이 가능하지만 엑셀은 데이터 타입이 고려되지 않아도 삽입이 가능하다.
아무 데이터 타입의 삽입이 가능하지 않도록 컬럼을 명시하고 서식을 사용해보자.
잘 가공된 Row Data로 피벗 테이블을 통해 사용하는 것이다.
위 컬럼을 드래그한 뒤 테이블을 사용하여 서식이 자동화되도록 하였다.
액셀의 시각화 개체 도구
데이터는 표 형태를 통해 새로운 정보를 만들기 편리한 점이 있다.
표는 정돈된 데이터를 의미한다. 이후 피벗테이블을 통해 데이터를 그룹화하여 통계를 낼 수 있다.
즉, 피벗테이블로 만들기 위해서는 정돈된 표가 필요하다.
시각화 개체 도구는 표, 슬라이서, 스파크라인, 조건부서식, 피벗테이블, 차트, 양식도구가 있다.
표 슬라이서
슬라이서는 피벗테이블을 포함해서 테이블을 필터링하기 위한 것이다.
즉, 필터링 한 것을 우리가 사용하기 쉽게, 보기 쉽게 클릭 버튼을 제공한 것이다.
GUI의 '삽입' 메뉴에서 '슬라이서'를 선택하면 된다!
스파크라인
스파크라인은 셀 안에 맞게 삽입할 수 있는 작은 차트이다.
이는 각 레코드 값의 증감 수준을 쉽게 확인할 수 있다.
GUI의 '삽입' 메뉴에서 '슬라이서'를 선택하면 된다!
조건부 서식
가장 많이 사용될 수 있는 기능이다.
이는 프로그래밍에서 if문과 같이 사용되며 데이터 추출 및 모델링에 포함된다.
if문의 논리값을 구별하는 기능이다.
if문과 같기 때문에 =is~ 함수를 사용할 수 있다.
만약에 위 이미지와 같이 특정 셀이 2000값을 넘는지 확인하기 위해 조건부서식을 사용한다면 위 결과값은 TRUE로 값이 나타난다.
시각화를 위해 더 복잡한 조건 수식을 사용할 수 있다.
만약 좌측 상단에 있는 판매사원의 목록을 선택할 시 위 이미지처럼 하나의 레코드가 모두 노란색으로 선택될 수 있도록 해보자.
그러기 위해서는 상단에 있는 GUI메뉴의 '홈' 탭에서 우측에 있는 '조건부서식'을 클릭하고 메뉴들 중 '새 서식 규칙'을 선택한다.
특정 조건을 사용할 것이기 때문에 수식을 사용하여~ 를 선택한 뒤 수식을 입력한다.
위 이미지처럼 수식은 '=$K5=$K$3' 을 사용하였다.
K5의 셀은 엑티브 셀로써 내가 드래그한 모든 데이터를 가르킨다.
K5 앞에 '$'를 붙여주었는데 이는 혼합참조로 행/열 중 한가지는 절대참조를 사용하고 다른 한가지는 상대참조를 사용하기 위함이다.
K3은 판매 사원의 목록을 나타내는 것으로 위 이미지에서는 화살표가 우측에 달려있는 셀이다.
즉, $K5와 $K$3가 같을 때 서식이 적용되는 것이다. (노란배경 적용!)
match 함수
match 함수는 지정된 셀 항목에서 검색하여 비교할 셀과 일치할 경우를 반환해준다.
만약 좌측에 나열되어 있는 송장번호가 우측에 있는 데이터들에 일치하는 것이 있다면 노란색 배경으로 표시해보자.
match 함수는 일치하는 것을 찾았을 때 N/A, 1~6을 반환할 것이다. 일치하는 것이 없다면 N/A를, 일치하는 송장번호가 있다면 송장번호 순서대로 나열된 순서를 숫자로 반환해준다.
match 함수는 논리값을 제공해주므로 이를 TRUE, FALSE로 구분해본다면 ISNUMBER 함수를 통해서 조건문을 걸어줄 수 있다.
=ISNUMBER(MATCH(J6,$H$5:$H$10,0))
다시 일치값을 노란색 배경으로 표시해주는 것으로 돌아와보자면
해당 조건에서는 match 함수를 통해 ISNUMBER를 사용하지 않아도 논리값으로 구분하여 배경을 채워준다.
=MATCH($J5, $H$5:$H$10, 0)
피벗테이블
피벗테이블을 통해 데이터를 그룹화하여 통계를 낼 수 있는 용도이다.
피벗 테이블을 이용하기 위해서는 정리된 데이터가 필요하다.
만약 크롤링한 데이터에 빈 셀이 존재할 수 있다.
이를 없애기 위해서는 이동옵션을 이용해야 한다.
이동옵션 → ‘필드값 없음’ 선택 → Ctrl + - → ‘셀 위로 밀기’ 선택하여 빈 셀을 없애준다.
이제 정리한 데이터를 가지고 피벗테이블을 만들어보자.
삽입 탭에 좌측에 보면 '피벗테이블'이 있다. 이를 선택한다면 테이블 서식을 설정할 수 있도록 우측에 설정 메뉴가 나타날 것이다.
위 이미지처럼 행과 값에 '시도'라는 서식에 관련한 데이터를 추가해준다.
개수로 설정한다면
요렇게 나올 것이다!
이를 수도권과 비수도권으로 나눠서 데이터를 살펴보자.
먼저, 수도권인 '경기도, 서울, 인천'의 셀을 선택하자.
그런 다음, 오른쪽 마우스를 클릭해서 '그룹'을 누르면 그룹1, 그룹2로 나눌 수 있게 된다.
또 이렇게 나오게 될 것이다~~
이제 그룹화한 데이터를 가지고 슬라이서와 차트를 만들어 시각화 해본다면
이렇게 가시성 높게 데이터를 확인할 수 있다!
요약이 불필요한 차트
히스토그램
히스토그램은 도수분포표이며, 데이터를 각 구간으로 나눈 뒤 구간별 개수를 정리한 표이다.
구간을 나눈 차트이니 당연히 히스토그램에서 가장 중요한 것은 구간값이다.
중심값을 기준으로 분포되어 있는 데이터를 보기 위해 홀수 막대 그래프를 만들어야 중심값을 기준으로 분포도를 쉽게 파악할 수 있다.
즉, 중심값을 확인하기 위해 구간값이 가장 중요하다.
히스토그램은 확률과 긴밀한 관련이 있기 때문에 막대들 사이에 갭이 존재하면 안된다고 한다.
엑셀 히스토그램, 10초 만에 만드는 방법 (완전 쉬움) - 오빠두엑셀
엑셀 히스토그램, 10초 만에 만드는 방법 목차 바로가기 영상강의 예제파일 다운로드 오빠두엑셀의 강의 예제파일은 여러분을 위해 자유롭게 제공하고 있습니다. [엑셀프레소] 엑셀 히스토그램
www.oppadu.com
상자수염
상자수염은 최솟값, 최댓값, 제 1 사분위수(Q1), 제 2 사분위수(Q2), 제 3 사분위수(Q3)로 총 5개 통계량을 이용하여 상자와 수염으로 나타낸 차트이다.
*사분위수는 오름차순으로 정렬하고 4등분한 값이다.
- 제 1 사분위수: 크기가 25%에 위치한 값
- 제 2 사분위수: 크기가 50%에 위치한 값
- 제 3 사분위수: 크기가 75%에 위치한 값
분포값을 나타내기 좋은 차트인데, 값들이 분포되면 될수록 상자의 넓이가 커진다.
설정값을 통해 보기좋게 소수점은 모두 버렸다.
출처:https://wikidocs.net/166860
07. 상자 수염 그림
상자 수염 그림(box – whisker plot)은 최솟(最小)값, 제 1 사분위수(Q1), 제 2 사분위수(Q2), 제 3 사분위수(Q3), 최댓값 등 5 개 통계량을 이용하…
wikidocs.net
분산형
분산형 차트도 많이 쓰이게 될 차트 중 하나일 것 같다.
쉽게 말해 x축과 y축을 기준으로 데이터들의 분산 정도를 쉽게 확인할 수 있다.
x축과 y축이 될 수 있는 두 개의 컬럼의 관계를 예측하는 용도로 사용이 가능하다.
실적과 행사와의 관계에 대한 예측을 분산형으로 나타내보자.
각 월별로 x축은 실적, y축은 행사 개최 횟수일 때 그래프는 아래와 같이 반환된다.
이때 상관계수를 구할 수 있는데 이는 CORREL 함수를 사용한다.
실제 데이터를 반영하여 상관계수를 구했을 때 (=CORREL(C5:C16,D5:D16)) 0.97의 수가 반환되었다.
1에 가까울수록 상관이 있다는 것을 의미하기 때문에 실적과 행사의 관계는 긍정적이라고 볼 수 있다.
또한, 위 이미지의 차트를 봤을 때 점들이 우상향이기 때문에 긍정적인 관계임을 뜻한다.
다른 예시로 매출과 지점의 상관관계를 구해보자.
만약 지점수가 매출의 원인이고 지점수에 의해 매출이 결정된다고 생각이 들었다면 분산형 차트와 추세선을 통해 확인할 수 있다.
이때 주의해야 할 점은 x축이 원인을 나타내야하고, y축이 결론을 나타내야한다.
그러므로, 현재 x축은 지점수이고 y축은 매출이다.
추세선은 점들을 이용해서 만든 것이고 가까운 값을 사용하여 추세선을 그린 것이다.
추세선은 제곱했기 때문에 음수는 나오지 않는다. 1로 측정될수록 영향이 있다는 것을 의미한다.
즉, 1에 가까울 수록 회귀성이 나타난다고 본다.
이를 확인하기 위해 RSQ 함수를 사용한다. (=RSQ(C5:C19,D5:D19)) (y축의 데이터를 먼저 함수 안에 넣어줘야한다.)
값은 0.885가 반환되는 것을 확인할 수 있다.
이때 같이 사용할 수 있는 함수는 SLOPE와 INTERCEPT이다.
각각 기울기와 절편을 나타내는 것이다.
위 추세선에서 보이는 식에서 볼 수 있듯이 기울기는 106.36이며, 절편은 85.194이다.
지점수가 매출의 원인이라고 봤을 때 (1에 가까운 값이 나왔으므로) 지점수를 지정한 후 예측 매출값을 측정할 수 있다.
예측하기 위해서는 기울기, 절편, (가정할) 지점수만 있으면 된다!
만약에 지점수가 50개일 때 매출값을 측정하자면
106.36(기울기) * 50(가정 지점수) + 85.194(절편) = 5,403이 나오는 것을 확인할 수 있다!
엑셀 차트를 PPT의 차트처럼 단순한 차트로만 생각했지만 마지막 분산형 차트처럼 시각화뿐만 아닌 예측값까지 도출할 수 있다는 것에 또 한번 신기함을 느꼈다! 또한 엑셀의 몰랐던 편리한 기능들을 배울 수 있어서 데이터 분석에 대해 조금이라도 감을 잡을 수 있었던 수업이었다!!!!! (갓엑셀~~~~~~~~~~~~~~~~~)
'UX 디자인' 카테고리의 다른 글
[UX] 피그마 프로토타입 (0) | 2023.11.28 |
---|---|
[UX] 피그마의 이해 (0) | 2023.11.27 |
데이터 수집 및 분석을 위한 엑셀 (1) | 2023.11.23 |
[UX] 프로젝트에 적용할 수 있는 세세한 방법론들 (1) | 2023.11.21 |
[UX] UX/UI란? (0) | 2023.11.20 |