개발 321

Data Science - 파생변수

파생변수 - 기존 변수를 조합하여 만들어내는 새로운 변수 파생 변수의 예시 - 기온, 습도, 풍속을 조합하여 만든 체감온도 변수 - 물건 주문 건수와 환불 건수를 조합하여 만든 환불 비율 변수 - 기존 방문 매장 정보를 활용한 주 방문 매장 변수 주요 함수 numpy - where() - 조건에 따라 두 개의 출력을 내는 함수 - if()함수를 대체할 수 있으며 조건, True일 때 반환값, False일 때 반환값을 차례대로 기입 pandas - rename() - 데이터프레임의 변수명을 변경할 때 사용하는 메서드 - columns 인자에 기존 변수명과 신규 변수명의 쌍을 딕셔너리로 구성하여 입력. pandas - apply() - row 또는 column 방향으로 일괄 계산하는 메서드 - axis 인자..

개발/Data Science 2023.03.25

Data Science - 이상치 & 결측치

1. 이상치 - 이상치 : 중심 경향성에서 멀리 떨어진 값 - 이상치의 처리 방법 1) 이상치 처리에 절대적인 기준은 없음 2) 대표적으로 Carling, Tukey 방법이 존재 3) 분포 기반으로 처리도 가능 2. 결측치 - 결측치 : 갑싱 기록되지 않고 비어있음 - 결측치의 처리 방법 1) 결측치 처리에 절대적인 기준은 없음 2) 단순 제거와 특정 값으로 대체하는 방식이 있음 3) 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우 단순 제거하는 경우가 많음 3. 판다스 함수 - pandas - isna(), iusnull() 1) 결측치 원소를 True, 관측치를 False로 반환하는 메소드 2) 반대의 기능을 하는 메서드는 notna()와 notnull() - pandas - fillna() 1)..

개발/Data Science 2023.03.24

ADsP 생각 잘 안나는 단답형 정리

[1과목] 1. 인공 지능의 하위 범주로, 컴퓨터가 패턴 인식 작업을 개발하는 프로세스 또는 특정 프로그래밍 없이도 컴퓨터가 지속적으로 학습하고 데이터를 기반으로 예측하여 필요한 작업을 수행하는 능력을 의미하는 용어를 무엇이라 하는가? * 데이터 모델의 매개 변수를 자동으로 학습한다. * 훈련 데이터에서 최적의 매개변수를 찾고 시험 데이터를 사용해 모델의 실력을 평가한다. 2. 조직이나 기업의 인적 자원이 축적하고 있는 개별적인 지식을 체계화하여 공유함으로써 경쟁력을 향상시키기 위한 기업 정보시스템을 무엇이라 하는가? 3. 빅데이터 환경에서는 논리적인 (1) 분석 뿐만 아니라 (2) 또는 연관분석을 통하여 다양한 문제해결에 도움을 받을 수 있다. 즉 (1) 로부터 (2) 분석으로의 이동이 빅데이터 분석의..

개발/Data Science 2023.03.16

데이터분석 준 전문가(ADsP) 기출 34회 오답

[1과목 데이터 이해] 문제 1. 다음 중 빅데이터 분석의 특성에 대한 설명으로 옳지 않은 것은? 1) 더 많은 데이터가 더 많은 가치를 창출하는 것은 아니다. 2) 비즈니스의 핵심은 객관적이고 통찰력 있는 데이터를 추출하는 그것이 중요하다. 3) 분석적 방법과 성과에 대한 이해 부족은 빅데이터 과제에 대한 걸림돌이다. 4) 데이터 크기가 커질수록 더 많은 분석을 수행하는 것이 경쟁우위 확보의 원천이다. * 빅데이터가 가져다 주는 기회는 데이터의 크기에 있다기보다는 음성, 텍스트, 로그, 이미지나 비디오 같은 새롭고 다양한 정보 원천의 활용에 있다. [2과목 데이터 분석 기획] 문제 2. 분석 준비도의 분석 업무 영역이 아닌 것은? 1) 업무별 적합한 분석 기법 사용 2) 최적화 분석 업무 3) 발생한 ..

개발/Data Science 2023.03.15

데이터분석 준 전문가(ADsP) 기출 33회 오답

[1과목 데이터 이해] 문제 9. 기업의 의사결정을 지원할 수 있는 분석 정보를 제공하는 데이터베이스로 데이터의 주제 지향성, 통합성, 시계열성, 비휘발성을 특징으로 하는 데이터베이스를 무엇으로 하는가? - 데이터 웨어하우스 [2과목 데이터 분석기획] 문제 1. 다음 중 분석 프로젝트 관리방안에 관한 설명으로 적절하지 않은 것은? 1) 정확도는 실제로 TRUE인 비율 중 TRUE로 예측되었던 정도를 의미한다. 2) 정밀도는 TRUE로 예측한 비율 중 실제로 TRUE인 정도를 의미한다. 3) 분석의 활용적 측면에서는 정확도가 중요하고, 안정적인 측면에서는 정밀도가 중요하다. 4) 분석 모델의 정확도와 정밀도는 트레이드 오프(trade-off) 관계를 이룬다. *정확도는 실제 측정과 절대 측정 간의 일치 수..

개발/Data Science 2023.03.14

데이터분석 준 전문가(ADsP) 기출 32회 오답

[1과목 데이터 이해] 문제 4. 다음 중 딥러닝과 가장 관련 없는 분석 기법은? 1) LSTM 2) Autoencoder 3) SVM : Support Vector Machine 4) RNN [2과목 데이터 분석 기획] 문제 8. 기업의 데이터 분석 도입의 수준을 명확하게 파악하기 위한 방법으로 분석 준비도(Readiness)를 진단 할 수 있다. 다음 중 분석준비도를 측정하기 위한 요소로 가장 부적절한 것은? 1) 분석 업무 파악 2) 인력 및 조직 3) 분석 기법 4) 분석 성과 문제 10. 분석 수준 진단 방법 중 조직의 분석 및 활용을 위한 역량 수준을 파악하기 위해 도입 -> ( ) -> 확산 -> 최적화의 분석 성숙도 단계 포지셔닝을 파악하게 된다. 빈칸에 알맞은 용어는? - 답 : 활용 [..

개발/Data Science 2023.03.13

데이터분석 준 전문가(ADsP) 기출 31회 오답

[1과목 데이터 이해] 문제 10. 조직이나 기업의 인적 자원이 축적하고 있는 개별적인 지식을 체계화하여 공유함으로써 경쟁력을 향상시키기 위한 기업정보시스템을 무엇이라 하는가? - KMS(지식관리시스템) [2과목 데이터 분석 기획] 문제 4. 프로토타이핑 프로세스에 대한 설명 중 적절하지 않는 것은? 1) 가설 생성 2) 디자인에 대한 실험 3) 실제 환경에서의 테스트 4) 반복적 위험 분석을 수행하여 위험관리 개선 * 테스트 결과에서의 통찰 도출 및 가설 확인으로 구성 문제 9. 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 ()를 수행한다. ()는 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 ..

개발/Data Science 2023.03.12

데이터분석 준 전문가(ADsP) 기출 29회 / 30회 오답

29회 기출 문제 [1과목 데이터 이해] 문제 2. SQL 빈칸에 알맞은 구문은? select department_id 부서번호, round(avg(salary)) 평균급여 from employees group by department id ( ) avg(salary) 공분산 0이라고 해서 두 변수간 아무런 관계가 없다는 것은 아니다. 두 변수간에 비선형적인 관계가 존재할 수 있기 때문에, 두 변수 간의 관계를 파악하려면 공분산만으로 판단하기보다는 산점도를 그려서 시각적으로 파악하는 것이 좋다. 문제 15. 다음 중 로지스틱 회귀분석에 관한 설명 중 옳지 않은 것은? 1) 로지스틱 회귑분석의 모형 탐색은 최대 우도추정법을 이용한다. 2) 로지스틱 회귀분석은 독립변수에 대한 어떠한 가정도 필요하지 않다. ..

개발/Data Science 2023.03.11

데이터분석 준 전문가(ADsP) 기출 28회 오답

[2과목 데이터 분석 기획] 문제 9. 비즈니스 모델 관점에서는 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 다순화 하여 (1), (2), 고객 단위로 문제를 발굴하고, 이를 관리하는 두 가지의 영역인 규제와 감사 영역과 (3) 영역에 대한 기회를 추가로 도출하는 작업을 수행한다. (1) 업무 (2) 제품 (3) 지원인프라 문제 10. 소프트웨어 개발 및 전산장비 운영 업체들의 업무 능력 및 조직의 성숙도를 평가하기 위한 모델을 무엇이라 하는가? - 답 : 능력 성숙도 통합 모델 [3과목 데이터 분석] 문제 4. 상관분석에 대한 설명으로 틀린 것은? 1) 종속 변수에 미치는 영향력의 크기를 파악해 종속변수를 예측하는 선형모형 산출방법 2) 등분산성이라는 가정을 충족시켜야 한다...

개발/Data Science 2023.03.10
반응형