방송통신대학교 컴퓨터과학과의 1학년 전공과목 - 데이터정보처리입문의 학습정리 입니다.
개인 학습목적으로 교재를 참고하여 데이터 분석방법에 대하여 서술했습니다.
데이터분석 실습을 위한 통계 데이터 다운로드
종목별 통계는 'KOSIS'에서 확인할 수 있습니다.
통계 데이터는 원하는 데이터만 조회할 수 있도록 옵션설정이 가능하며, 각 소프트웨어로 다운로드가 가능합니다.
엑셀을 활용한 데이터 분석
국가통계포털에서 제공되는 통계데이터는 각 소프트웨어로 다운로드가 가능합니다. 엑셀기능을 활용하여 그래프를 만들기 위해서는 상단의 표를 아래와 같이 변경합니다.
구체적인 방법은 아래와 같습니다.
'행'으로 변경하고자하는 '열'을 CTRL + A하여 전체선택, CTRL + C하여 복사합니다.
변경할 위치에서 마우스 오른쪽 클릭하여 '붙여넣기 옵션'에서 '바꾸기'를 선택합니다.
삽입 -> 차트에서 원하는 형태로 데이터를 표현합니다.
위 데이터로 알 수 있는 사실은 2018년도 기준, 전국 총 출생성비는 전년도보다 0.8% 감소했으며, 남성보다 여성의 성비가 5.4% 높습니다. 전년대비 가장 높은 총 출생성비의 감소는 1991년도이며 가장 높은 출생성비 증가는 1998년도입니다.
ETC.
KOSIS에서는 다양한 차트를 제공하며, 필요에 따라 차트를 만들어 다운로드할 수 있습니다.
또한 다양한 부가기능이있으므로 데이터분석에 용이하게 사용됩니다.
엑셀 함수 정리
함수 |
형식 |
활용 |
참고 |
예 |
RANK() |
(number, ref, order) |
데이터 항목의 순위를 계산하는 함수 |
|
=RANK(A1,A1:A6,1) =RANK(찾는조건, 범위, 오름OR내림차) |
MAX() |
(number 1, 2, 3, 4, ~) |
최대 값을 찾는 함수 |
|
=MAX(A1:A12) =(MAX(범위) |
MIN() |
(number 1, 2, 3, 4, ~) |
최소 값을 찾는 함수 |
|
=MIN(A1:A12) =MIN(범위) |
AVERAGEIF() |
(number 1, 2, 3, 4, ~) |
평균 값을 찾는 함수 |
|
=AVERAGEIF(A1:A12) =AVERAGEIF(범위) |
SUM() |
(number 1, 2, 3, 4, ~) |
셀의 값을 합하는 함수 |
|
=SUM(A1:A12) =SUM(범위) |
FREQUENCY() |
(data_array, bins_array) |
값을 구간별로 찾는 배열함수 (세로배열) |
배열함수 ctrl+shift+enter를 마지막에 입력 |
=FREQUENCY(D3:D12,B16:B20) =FREQUENCY(범위1,범위2) |
COUNT() |
(value 1, 2 , 3 , 4, ~) |
값을 개별로 찾는 배열함수 (숫자만) |
=COUNT(IF(D3:D12>35,1)) =COUNT(범위,조건) |
|
COUNTA() |
(value 1, 2 , 3 , 4, ~) |
빈 셀을 제외하고 값이 입력된 셀의 개수를 찾는 함수 |
인수의 개수(범위가 지정된 셀의 총 개수) |
=COUNTA(A1:A12) =COUNTA(범위) |
COUNTBLANK() |
(range) |
빈 셀의 개수만 찾는 함수 |
|
=COUNTBLANK(A1:A5) =COUNTBLANK(범위) |
LAREGE() |
(array, k) |
셀의 값 중에서 k 번째로 큰 값을 찾는 함수 |
범위 내에서 5번째로 큰 값을 찾을 경우 (예) |
=LARGE(A1:A6,5) =LAGGE(범위,몇번째의 값) |
SMALL() |
(array, k) |
셀의 값 중에서 k 번째로 작은 값을 찾는 함수 |
범위 내에서 5번째로 작은 값을 찾을 경우 (예) |
=SMALL(A1:A6,5) =SMALL(범위,몇번째의 값) |
COUNTIF() |
(range, criteria) |
조건에 부합하는 값의 셀의 개수를 구하는 함수 |
조건을 검사할 범위, 숫자,수식,텍스트의 조건식 |
=COUNTIF(J3:J12,C24) =COUNTIF(범위, 조건) |
SUMIF() |
(range, criteria, sum_range) |
조건에 부합하는 값의 셀의 합계를 구하는 함수 |
마지막형식은 합을 구할 실제 범위를 의미 |
=SUMIF(A15:B17,2) =SUMIF(범위,조건,범위) |
IFERROR() |
(value, value-if-error) |
수식에서 오류발생시 지정 값으로 변환하는 함수 |
에러가없으면 반활할 값, 발생시 반활 할 내용 |
=IFERROR(SUMIF(B3:B6,”김*”,C3:C6),0) =김으로 시작하는 사람의 합계구하기 |
AND() |
(logical 1, 2, 3, 4, ~) |
값이 모두 TRUE이면 TRUE을 반환하는 함수 |
|
|
OR() |
(logical 1, 2, 3, 4, ~) |
모든 인수가 FALSE 일 경우만 FALSE를 반환하는 함수 |
하나라도 TRUE면 TRUE를 반환한다. |
|
NOT() |
(logical 1, 2, 3, 4, ~) |
TRUE 식은 FALSE로, FALSE는 TRUE로 반환하는 함수 |
|
|
IF() |
(logical_test, value_if_false 1, 2 ~) |
조건식에 따라 TRUE ,FALSE로 출력하는 함수 |
조건식에 따른 값을 지정 값으로 출력 |
=IF(D1>200,"좋음“,”나쁨“) =IF(조건,참,거짓) |
함수 |
형식 |
활용 |
참고 |
예 |
|
ROUND() |
(number, num_digits) |
지정 값을 반올림 하는 함수 ( 5 기준 ) |
num_digits는 반올림할 자릿수를 의미 |
=ROUND(G14,-2) =ROUND(범위, 계산할 자리의 위치) |
|
ROUNDUP() |
(number, num_digits) |
0에 멀어질수록 값을 반올림 하는 함수 ( 무조건 상승 ) |
|
=ROUND(G14,-2) =ROUND(범위, 계산할 자리의 위치) |
|
ROUNDDOWN() |
(number, num_digits) |
0에 가까울수록 값을 무조건 내리는 함수 ( 무조건 감소 ) |
num_digits는 내림할 자릿수를 의미 |
=ROUND(G14,-2) =ROUND(범위, 계산할 자리의 위치) |
|
PRODUCT() |
(number 1 ,2 ,3, 4 ~) |
범위 값의 숫자들을 곱할 때 사용하는 함수 |
|
=PRODUCT(A1:A4) =PRODUCT(범위) |
|
SUMPRODUCT() |
(array 1, 2, 3, 4 ~) |
대응되는 값끼리 곱 합후 합계를 구할 때 사용 하는 함수 |
- 이해못함 - |
- 이해못함 - |
|
MOD() |
(number, divisor) |
나눗셈을 수행한 후 나머지와 몫을 구하는 함수 |
나머지 ( 예 - 잔여 포인트 ) |
=MOD(D37,2500) =MOD(범위,나눌값) |
|
QUOTIENT() |
(numerator, denominator) |
몫 ( 예 - 쿠폰갯수 ) |
=QUOTIENT(D37,2500) =QUOTIENT(범위,나눌값) |
||
MEDIAN() |
(number 1 ,2 ,3, 4 ~) |
숫자 데이터를 나열했을 때 중간 위치 값을 구하는 함수 |
LAREGE-최고값, SMALL-최소값 과 함께 사용하는 함수 |
=MEDIAN(D43:F46) =MEDIAN(범위) |
|
MODE() |
(number 1 ,2 ,3, 4 ~) |
최빈값을 찾는 함수 |
=MODE(D43:F46) =MODE(범위) |
||
VLOOKUP() |
(lookup_value, table_array, Col_index_num, range_lookup) |
열(ㅣ) 의 값 읽어오는 함수 |
추출하는 열(행)은 숫자로 입력추출 열 4번째이면 4입력추출 행 6번째이면 6입력 |
1. 찾으려는 값 2. 어디서 찾을지 범위 3. 추출하려는 열(행) 4. 참혹은 거짓(0,1) |
=VLOOKUP(10,D43:F46,1,TRUE) =VLOOKUP(참고의 내용) |
HLOOKUP() |
(lookup_value, table_array, Row_index_num, range_lookup) |
행(ㅡ) 의 값 읽어오는 함수 |
=HLOOKUP(10,D43:F46,1,TRUE) =HLOOKUP(참고의 내용) |
||
CHOOSE() |
(index_num, value 1, 2, 3, 4 ~) |
범위의 값 중에 원하는 내용을 고르는 함수 |
index_numsms 인수의 위치 값 |
- 이해못함 - |
|
ROW() |
- 이해못함 - |
셀의 행(ㅡ) 번호를 읽어오는 함수 |
- 이해못함 - |
- 이해못함 - |
|
COLUMN() |
- 이해못함 - |
셀의 열(ㅣ) 번호를 읽어오는 함수 |
- 이해못함 - |
- 이해못함 - |
|
INDEX() |
(array, row_num, column_num) |
원하는 셀의 내용을 불러오는 함수 |
INDEX는 MATCH와 같이 사용하여 활용 |
=INDEX(C3:D7,4,2) =INDEX(범위1,행번호,열번호) |
|
MATCH() |
(lookup_value, lookuo_array, match_type) |
특정 값이 몇번째에 위치하는지 찾아주는 함수 =INDEX(C3:I12, MATCH(MAX(I3:I12),I3:I12,0), 1) |
값의 위치!를 찾아준다 (하나의 행,열만 가능하다) |
=MATCH(MAX(I3:I12), I3:I12, 0) =MATCH(찾는값, 범위, (0,1) |
|
LEFT() |
(텍스트, 문자의 개수) |
특정 문자열의 왼쪽부터 지정한 수만큼 가져오는 함수 |
주민등록번호에서 출생년도만 가져올 때 활용 |
=LEFT(B4,2) =LEFT(범위, 가져올 자리수 -> 00) |
|
RIGHT() |
(텍스트, 문자의 개수) |
특정 문자열의 오른쪽부터 지정한 수만큼 가져오는 함수 |
|
||
MID() |
(텍스트, 문자의 개수) |
지정 위치로부터 지정한 개수만큼 문자를 가져오는 함수 |
주민등록번호에서 남자,여자 구분할 때 활용 |
=IF(MID(B4,8,1)="1","남“,”여“) =IF(MID (범위, 가져올 자릿수,1),조건식, 참, 거짓) |
|
SUBSTITUTE() |
(Old_text, new_text, instance_num) |
OID 텍스트를 NEW 텍스트로 바꿔주는 함수 |
instance_num는 몇 번째의 Old와 봐꿀지 지정 |
이해못함 - |
|
REPLACE() |
(Old_text, start_num num_chars, new_text) |
문자열의 특정 부분을 원하는 값으로 바꿔주는 함수 |
start는 oid에서 바꿀 시작할 위치, num는 개수 |
이해못함 - |
함수 |
형식 |
활용 |
참고 |
예 |
TODAY() |
=TODAY() |
현재의 날짜를 돌려주는 함수 |
|
=TODAY() |
NOW() |
=NOW() |
현재의 날짜와 시간을 돌려주는 함수 |
|
=NOW() |
DATE() |
=DATE(년,월,일) |
직접 값을 입력하여 날짜를 지정하는 함수 |
주민등록번호를 이용하여 생년월일 계산하기(예) |
==DATE(IF(MID(B4,8,1)<="2",LEFT(B4,2),LEFT(B4,2)+2000),MID(B4,3,2),MID(B4,5,2)) |
DAY() |
=DAY(일) |
일의 값을 구하는 함수 |
|
=DAY(26) |
MONTH() |
=MONTH(월) |
월의 값을 구하는 함수 |
|
=MONTH(6) |
YEAR() |
=YEAR(년) |
년의 값을 구하는 함수 |
|
=YEAR(1992) |
DATEDIF() |
date(시작일, 종료일, 옵션) |
날짜 사이의 기간을 계산하는 함수 ( 함수마법사 x) |
옵션 / y = 경과한 년, m = 월. d = 일 ym = 1년 미만 월, md = 1달 미만 일 |
-이해못함- |
WEEKDAY() |
weekday(일련번호, 반환형식) |
해당하는 요일을 숫자형태로 표시 |
형식 / 1:일(1)~토(7) 2:월(1)~일(7) 3:월(0)~일(6) |
-이해못함- |
'etc. > 방송통신대학교' 카테고리의 다른 글
[방송통신대학교 컴퓨터과학과] 방통대 후기 및 과목별 평가 (0) | 2020.07.15 |
---|---|
[방송통신대학교 컴퓨터과학과] 데이터정보처리입문- R 프로그래밍 (0) | 2020.05.09 |
[방송통신대학교 컴퓨터과학과] 데이터베이스- 관계형모델 (0) | 2020.05.02 |
[방송통신대학교 컴퓨터과학과] 데이터베이스- 개체관계(E-R) 다이어그램 (0) | 2020.05.01 |
[방송통신대학교 컴퓨터과학과] 데이터베이스- 파일처리시스템의 문제점 (0) | 2020.04.25 |
댓글