2과목 데이터전처리

2과목 데이터전처리
36問 • 2年前
  • 김근영
  • 通報

    問題一覧

  • 1

    결측값 처리 방법

    단순대치법 _완전분석 평균대치법 회귀대치법 단순확률대치법 최근접대치법. 다중대치법 대치단계->분석단계->결합단계

  • 2

    MCAR MAR NMAR

    완전무작위결측 - 다른변수 관련 x 무작위결측 - 관련되있디만 결과는 변화없음 비 무작위 결축 -

  • 3

    차원축소의 필요성

    1.복잡도의축소 2.과적합의방지 3.해석력의확보 4.차원의저주

  • 4

    차원축소의 방법

    1.요인분석 2.주성분분석(PCA)

  • 5

    상관관계분석 2종류

    단순상관분석 (변수 딱 2개 의 상관관계) 다중상관분석 (3개이상의 변수간의 상관관계)

  • 6

    산포도가 구간상관없이 퍼진정도가 일정하먼

    등분산성(<->이분산성)

  • 7

    피어슨상관계수

    상관분석방법1 피어슨 상관계수 -1~ +1 1은 완벽선형 0은 상관없움 -1은 완벽한 음의선형

  • 8

    스피어만 상관계수

    상관분석방법2 데이터작은것부터 순위를 매긴후 사용 자료가 이상하거나 표본이 작을때 유용 0~1

  • 9

    모평균 표본평균 기하평균 조화평균 중앙값 최빈값 분위수

    기하평균은 곱하고 루트 조화평균은 1/평 4분위수 등 나누는기준

  • 10

    분산이클수록

    넓게흝어짐

  • 11

    변동계수

    평균을기준으로 상대적인 산포의척도를 나타내는수치 - 표준편차/평균

  • 12

    왜도

    자료의 비대칭정도를 나타내고 왜도의 부호는 분포의 비대칭성을 가진다. 대칭이면 0 왼쪽으로 치우치면 양수 오른쪽으로 치우치면 음수

  • 13

    첨도

    분포의 뾰족함을 나타내는 척도 기준 3 3미만 평평 3이면 정규분포 3이상 뾰족

  • 14

    독립변수 종속변수

    독립변수 영향을 주길 기대하는 변수 종속변수 영향을 받길 기대하는 변수

  • 15

    다중회귀

    독립변수가 2이상이고 종속변수와 선형관계에있음을 가정.

  • 16

    오차항 잔차항

    오차항 관측치와 모예측치간 편차차이 잔차항 관측치와 표본예측치간 편차차이

  • 17

    로지스틱회귀

    종속변수 y값이 [0,1]로 제한 이항형데이터 정규분포가아닌 이항분포를 따름

  • 18

    분산분석 ANOVA

    3개이상의 표본들의차이를 표본평균간의 분산과 관측치간의 비교로 가설검증

  • 19

    일원분산분석 이원분산분석

    독립변수 갯수차이

  • 20

    공분산 0이란

    두변수간 선형관계가 없다 다만 ㅣ, 독립적이라는것은 아님!

  • 21

    공분산?

    두 변수의 상관정도를 나타내는값

  • 22

    시공간 정의언어

    점선묜등 공간속성 타입투가 인덱스및 뷰 등 시간적 공간적속성 동시포함

  • 23

    시공간 조작언어

    삽입삭제변경검색 등. 시간공간 연산자제공

  • 24

    표본추출방법

    단순 계통. 인터벌 2 5 8 11 층화 비율에따른 표본추출

  • 25

    X

    확률변수를 지칭 (동전 예시 0 1 2 ) 이상확률변수 값이 유한한 변수 연속확률변수 값이 무한한 변수 몸무게 범위 등.

  • 26

    기댓값

    각 확률변수가 특정 값을 가질 확률을 가중치로 확률변수의 결과값을 평균화 한 값

  • 27

    이산확률분포의 종류

    베르누이 분포 이항분포 음이항분포 다항분포 포아송분포 기하분포 초기하분포

  • 28

    포아송분포

    기댓값과 분산이 동일하다 ex 하루동안 걸려오는 전화의 수

  • 29

    연속확률분포의 종류

    연속균등분포 지수분포* 정규분포 표준정규분포 감마분포 카이제곱분포 스튜던트 t분포 F분포*

  • 30

    확률밀도함수 질량함수

    넓이 값

  • 31

    지수분포 포아송분포

    단위시간당 대기시간, 횟수 의 차이

  • 32

    모집단 표본집단 평균 표준편츠 특성값

    u 6 모수, X S 통계량

  • 33

    귀무가설 대립가설

    기존 , 새로운통계

  • 34

    제1종오류

    귀무가설이 참일때 , 귀무가설을 기각하게 결정하는 오류( 즉 대립가설을 채택함)

  • 35

    제2종오류

    귀무가설이 거짓(대립가설이 참)일때 귀무가설을 채택할 오류(대립가설 기각)

  • 36

    p value < a(알파)

    유의확률 유의수준 귀무가설기각

  • 컴플

    컴플

    김근영 · 13問 · 3年前

    컴플

    컴플

    13問 • 3年前
    김근영

    전입시험1차

    전입시험1차

    김근영 · 58問 · 2年前

    전입시험1차

    전입시험1차

    58問 • 2年前
    김근영

    전입시험2차

    전입시험2차

    김근영 · 37問 · 2年前

    전입시험2차

    전입시험2차

    37問 • 2年前
    김근영

    은행편

    은행편

    김근영 · 22問 · 2年前

    은행편

    은행편

    22問 • 2年前
    김근영

    공통

    공통

    김근영 · 31問 · 2年前

    공통

    공통

    31問 • 2年前
    김근영

    1과목

    1과목

    김근영 · 32問 · 2年前

    1과목

    1과목

    32問 • 2年前
    김근영

    3과목 빅데이터모델링

    3과목 빅데이터모델링

    김근영 · 31問 · 2年前

    3과목 빅데이터모델링

    3과목 빅데이터모델링

    31問 • 2年前
    김근영

    4과목 빅데이터 결과해석

    4과목 빅데이터 결과해석

    김근영 · 22問 · 2年前

    4과목 빅데이터 결과해석

    4과목 빅데이터 결과해석

    22問 • 2年前
    김근영

    기타

    기타

    김근영 · 20問 · 2年前

    기타

    기타

    20問 • 2年前
    김근영

    수신1

    수신1

    김근영 · 54問 · 2年前

    수신1

    수신1

    54問 • 2年前
    김근영

    키워드

    키워드

    김근영 · 5問 · 2年前

    키워드

    키워드

    5問 • 2年前
    김근영

    수신2

    수신2

    김근영 · 45問 · 2年前

    수신2

    수신2

    45問 • 2年前
    김근영

    문풀

    문풀

    김근영 · 19問 · 2年前

    문풀

    문풀

    19問 • 2年前
    김근영

    꼬리표 여신

    꼬리표 여신

    김근영 · 10問 · 2年前

    꼬리표 여신

    꼬리표 여신

    10問 • 2年前
    김근영

    1과목

    1과목

    김근영 · 22問 · 2年前

    1과목

    1과목

    22問 • 2年前
    김근영

    2과목

    2과목

    김근영 · 13問 · 2年前

    2과목

    2과목

    13問 • 2年前
    김근영

    3과목

    3과목

    김근영 · 11問 · 2年前

    3과목

    3과목

    11問 • 2年前
    김근영

    으!.

    으!.

    김근영 · 21問 · 2年前

    으!.

    으!.

    21問 • 2年前
    김근영

    은행편2024

    은행편2024

    김근영 · 24問 · 2年前

    은행편2024

    은행편2024

    24問 • 2年前
    김근영

    토스

    토스

    김근영 · 9問 · 1年前

    토스

    토스

    9問 • 1年前
    김근영

    202406

    202406

    김근영 · 5問 · 1年前

    202406

    202406

    5問 • 1年前
    김근영

    1과목

    1과목

    김근영 · 24問 · 1年前

    1과목

    1과목

    24問 • 1年前
    김근영

    3과목

    3과목

    김근영 · 10問 · 1年前

    3과목

    3과목

    10問 • 1年前
    김근영

    2과목

    2과목

    김근영 · 5問 · 1年前

    2과목

    2과목

    5問 • 1年前
    김근영

    4과목

    4과목

    김근영 · 9問 · 1年前

    4과목

    4과목

    9問 • 1年前
    김근영

    1

    1

    김근영 · 16問 · 1年前

    1

    1

    16問 • 1年前
    김근영

    2

    2

    김근영 · 14問 · 1年前

    2

    2

    14問 • 1年前
    김근영

    3과목

    3과목

    김근영 · 28問 · 1年前

    3과목

    3과목

    28問 • 1年前
    김근영

    카페 약어

    카페 약어

    김근영 · 19問 · 1年前

    카페 약어

    카페 약어

    19問 • 1年前
    김근영

    1

    1

    김근영 · 17問 · 1年前

    1

    1

    17問 • 1年前
    김근영

    問題一覧

  • 1

    결측값 처리 방법

    단순대치법 _완전분석 평균대치법 회귀대치법 단순확률대치법 최근접대치법. 다중대치법 대치단계->분석단계->결합단계

  • 2

    MCAR MAR NMAR

    완전무작위결측 - 다른변수 관련 x 무작위결측 - 관련되있디만 결과는 변화없음 비 무작위 결축 -

  • 3

    차원축소의 필요성

    1.복잡도의축소 2.과적합의방지 3.해석력의확보 4.차원의저주

  • 4

    차원축소의 방법

    1.요인분석 2.주성분분석(PCA)

  • 5

    상관관계분석 2종류

    단순상관분석 (변수 딱 2개 의 상관관계) 다중상관분석 (3개이상의 변수간의 상관관계)

  • 6

    산포도가 구간상관없이 퍼진정도가 일정하먼

    등분산성(<->이분산성)

  • 7

    피어슨상관계수

    상관분석방법1 피어슨 상관계수 -1~ +1 1은 완벽선형 0은 상관없움 -1은 완벽한 음의선형

  • 8

    스피어만 상관계수

    상관분석방법2 데이터작은것부터 순위를 매긴후 사용 자료가 이상하거나 표본이 작을때 유용 0~1

  • 9

    모평균 표본평균 기하평균 조화평균 중앙값 최빈값 분위수

    기하평균은 곱하고 루트 조화평균은 1/평 4분위수 등 나누는기준

  • 10

    분산이클수록

    넓게흝어짐

  • 11

    변동계수

    평균을기준으로 상대적인 산포의척도를 나타내는수치 - 표준편차/평균

  • 12

    왜도

    자료의 비대칭정도를 나타내고 왜도의 부호는 분포의 비대칭성을 가진다. 대칭이면 0 왼쪽으로 치우치면 양수 오른쪽으로 치우치면 음수

  • 13

    첨도

    분포의 뾰족함을 나타내는 척도 기준 3 3미만 평평 3이면 정규분포 3이상 뾰족

  • 14

    독립변수 종속변수

    독립변수 영향을 주길 기대하는 변수 종속변수 영향을 받길 기대하는 변수

  • 15

    다중회귀

    독립변수가 2이상이고 종속변수와 선형관계에있음을 가정.

  • 16

    오차항 잔차항

    오차항 관측치와 모예측치간 편차차이 잔차항 관측치와 표본예측치간 편차차이

  • 17

    로지스틱회귀

    종속변수 y값이 [0,1]로 제한 이항형데이터 정규분포가아닌 이항분포를 따름

  • 18

    분산분석 ANOVA

    3개이상의 표본들의차이를 표본평균간의 분산과 관측치간의 비교로 가설검증

  • 19

    일원분산분석 이원분산분석

    독립변수 갯수차이

  • 20

    공분산 0이란

    두변수간 선형관계가 없다 다만 ㅣ, 독립적이라는것은 아님!

  • 21

    공분산?

    두 변수의 상관정도를 나타내는값

  • 22

    시공간 정의언어

    점선묜등 공간속성 타입투가 인덱스및 뷰 등 시간적 공간적속성 동시포함

  • 23

    시공간 조작언어

    삽입삭제변경검색 등. 시간공간 연산자제공

  • 24

    표본추출방법

    단순 계통. 인터벌 2 5 8 11 층화 비율에따른 표본추출

  • 25

    X

    확률변수를 지칭 (동전 예시 0 1 2 ) 이상확률변수 값이 유한한 변수 연속확률변수 값이 무한한 변수 몸무게 범위 등.

  • 26

    기댓값

    각 확률변수가 특정 값을 가질 확률을 가중치로 확률변수의 결과값을 평균화 한 값

  • 27

    이산확률분포의 종류

    베르누이 분포 이항분포 음이항분포 다항분포 포아송분포 기하분포 초기하분포

  • 28

    포아송분포

    기댓값과 분산이 동일하다 ex 하루동안 걸려오는 전화의 수

  • 29

    연속확률분포의 종류

    연속균등분포 지수분포* 정규분포 표준정규분포 감마분포 카이제곱분포 스튜던트 t분포 F분포*

  • 30

    확률밀도함수 질량함수

    넓이 값

  • 31

    지수분포 포아송분포

    단위시간당 대기시간, 횟수 의 차이

  • 32

    모집단 표본집단 평균 표준편츠 특성값

    u 6 모수, X S 통계량

  • 33

    귀무가설 대립가설

    기존 , 새로운통계

  • 34

    제1종오류

    귀무가설이 참일때 , 귀무가설을 기각하게 결정하는 오류( 즉 대립가설을 채택함)

  • 35

    제2종오류

    귀무가설이 거짓(대립가설이 참)일때 귀무가설을 채택할 오류(대립가설 기각)

  • 36

    p value < a(알파)

    유의확률 유의수준 귀무가설기각