빅데이터분석기사 심흥섭 교수
20240312 1일차 오전
ADP(데어터분석전문가) : 3%
빅데이터분석기사 25%(합격률)
ADSP(데이터분석기사) : 빅데이터분석기사보다 낮는 수준의 자격증 35%
시험은 1년 2회
R, PYTHON 선택 5문제 PYTHON은 3년 정도 사용해야 시험응시할 수준이 된다.
R은 암기해서 시험 볼 수 있는 정도의 수준은 맞출 수 있다.
필기 합격 후 실기 불합격은 1년간의 유효기간이 된다.
ADSP + 1 = 기사 응시 자격
정보통신 개꿀 : 1) 정보통신감리사, 2) ISMS-P 개인정보관련, 3) ADP
1), 2) : 프로그램짜지 않아도 할 수있다.
https://www.lyzeum.com/index.asp
R : 3개월이면 딥러닝, 머신러닝 가능하다.
KNN
EDA : 통계기반 : 이 쪽이 어렵다.
회귀분석 : 시험에 잘 나온다.
단순회귀 : X,Y축 1:1 대응, 단순선형
다중회귀
로지스틱스회귀
SVm
대전 통계교육원 교육을 알아보자.
돈되는 국가자금
AI
ESG -> 지속가능성보고서 -> 어카운터빌리지(영국 비영리 단체) 인증도장 ->
KTL(한국화학실험원) + KTR(KS인증원) -> ESG 인증을 해준다.
ESG 전문 자격증 IQCS(ISO 인증해주는 곳에서 주는 공인자격증)
ISO 9001 : 품질경영시스템 인증
ISO 14001 : 환경경영시스템 인증
ISO 45001 : 안전보건경영시스템 인증
ISO 27001 : 국제표준 정보보호 인증
https://www.iqcsplus.co.kr/main.htm
탄소중립 경영혁신 바우처 = ESG 5000만원 지원 9페이지 참고
1일차 오후
빅분기-1
3. 통계기법 이해 : 중요한 단원
4. 빅데이터 모델링 : 출제많아 나옴
1권 : 교과서의 개념
1-15 빅데이터의 이해
데 정 식 혜
15
7V
17
연내공표
18
https://www.accountability.org/standards/training/ACSAP/
https://www.ktr.or.kr/main/index.do
https://blog.naver.com/ksaqs/223189500666
AA1000에 대해서 알아보자.
국내 인증자격증은 공신력이 없다. 국제 인증자격증을 취득해야 한다.(서정태는 믿지말자)
https://search.ksa.or.kr/search.jsp
https://www.ksaedu.or.kr/edu/course/view.user?paramMap.course_code=COL88421
ESG, AI, BigData 는 연결되어있는 분야이다.
Hadoop
https://ko.wikipedia.org/wiki/%EC%95%84%ED%8C%8C%EC%B9%98_%ED%95%98%EB%91%A1
파이썬 개발자(로섬에서 온 귀도) 파이썬(뱀) -> 아나콘다(플랫폼)
https://namu.wiki/w/%EA%B7%80%EB%8F%84%20%EB%B0%98%20%EB%A1%9C%EC%84%AC
https://namu.wiki/w/R(%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D%20%EC%96%B8%EC%96%B4)
빅데이터는 나온지 얼마안되었지만, 회귀분석은 1000년도 넘은 방식이다.
빅데이터 1,2,3 과목은 레이아웃을 만드는 과정이다.
BARD 와 GEMINI는 팀이 다르다. 버전이 다르다고는 생각하지 말자.
정 -> 반정형데이타(JASON) - > 비정형
반정형데이타를 잘 다루어야 한다.
머신러닝 ML + DP = AI
ML - 지도학습 : 타킷 = Y = 레이블 = 라벨
분류 - 범류, 수치 - 예측
자율학습 -> 군집
분류 - 카테고리가 있다. 스포츠+과학+사회+예술
카테고리가 확실하게 나누어지는것.
카테고리의 일부와 카테고리의 일부가 섞여 있는 것.
전처리는 엑셀을 잘 사용해야 한다. 로우데이터를 필터링을 해서 원하는 데이터를 정리해놔야 한다.
엑셀 - 파일-더보기-옵션-추가기능
https://youtu.be/gJhlK7J9inA?si=5yPeA0GbthaGlncS
ADSP는 필기만 있다.
상향식 + 하향식 = 디자인씽킹
비즈니스캔버스모델(9개로 구성) P1P72
https://brunch.co.kr/@givemore/3
p1p74
Optimization최적화, Insight통찰, Solution해결책, Discovery발견
시그모이드함수 P1P73
https://namu.wiki/w/%EC%8B%9C%EA%B7%B8%EB%AA%A8%EC%9D%B4%EB%93%9C
이항분포가 사용하기 편하고 자주 사용된다.( 0 or 1) 갈지말지, 먹을지말지,
20240313 2일차 오전
1-84
https://salaryblues.tistory.com/3
1-85
포커스그룹 : 좋은 방법의 요구사항, 일정수준(기준)이상의 대상으로 하는 방법
인터뷰 : 랜덤의 대상, 반대측이 많을 수도 있다.
카피킬러, 표절검토
1-89 03 데이터 수집 및 저장 계획
1-89
SCM : Supply Chain Management
ERP
CRM : Custumer Ralationship Menagement
데이터웨어하우스 > 데이터 마트 (웨어하우스가 크기가 크다.)
AI 바우처 공급기업목록
https://aihub.or.kr/devsport/aivouchsport/list.do
스키마 = 구조
1-100
데이터
-수치형(정량데이터) -> 히스토그램으로그린다.
--정수 : 이산형데이터 : 정수나 카테고리 등과 같이 연속되지 않는 값들로 이루어진 데이터
-- 소수 : 연속형데이터 : 데이터를 말합니다. 이러한 데이터는 일정한 간격으로 측정되거나 수집되며, 그 사이에는 무한히 많은 가능한 값을 가질 수 있습니다.
-범주형(정형데이터) -> 막대OR원그래프로 그린다.
-- 명목형뎅터 : 순서를 매길 수 없는 데이터로, 예를 들면, 성별, 종교, 색깔 등이 명목형
-- 순서형데이터 : 순서형 데이터란 데이터의 항목이 순서 또는 시간적 흐름에 따라 배열되는 데이터
지문 : 5000명당 1명은 같을 수 있다.
DNA : 1/1억
1-101
X = 독립변수 = 설명변수 = 원인
Y = 종속변수 = 반응변수 = 결과
개인특성(Features) : 11개이면 2^11
https://product.kyobobook.co.kr/detail/S000000907349
https://product.kyobobook.co.kr/detail/S000209030789
부산공공데이터
https://data.busan.go.kr/index.nm;jsessionid=27465D6DBE9BDFC78595633F29D45DCB
POWER BI 보다 다루기 쉬운 프로그램.스크레치처럼 사용가능.머신러닝을 쉽게 할 수 있다.
HIRA 빅데이터 개방포털(보건의료빅데이터 개방시스템)
https://opendata.hira.or.kr/home.do
ChatGPT 초급 도움이 될 자료(2023.05.04)
https://sdf.seoul.kr/research-report/2077
https://sdf.seoul.kr/research-report/2168?srchKey=sj&srchText=chatgpt
2-5
NA : 값에 대한 정의를 내릴 수 없다.
NULL : 값이 너무 많다.
2-10
베이지안
완벽한 베이지안
2-11
평균 : 상황에 따라 기준을 달리 구해야 한다.
-산술
-기하
-조화
-가중
20240314 3일차 오전
2-12
조선왕조실록
https://sillok.history.go.kr/main/main.do;jsessionid=5F7BB282190A7BC35C5E32ADAF7B1232
빅데이터의 모든것
토큰화는 문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 하는 방법이다.
토큰 = 맛+집 2개
말뭉치 = 맛집
말뭉치(Corpus)는 형태소로 분할하기 위해 토큰(Token) 단위로 나누어 작업힌다.
엑셀 빠른채우기
20240314 3일차 오후
코딩에서 변수값은 "문자"가 항상 맨앞에 와야 한다. 숫자가 맨앞에 오면 오류가 난다.
통계 : 정해진 입력값의 범위 내에서 원하는 값을 찾을 수 있다.(160~180cm 까지의 몸무게, 인터뷰를 통해 값을 구한다.)
머신러닝 : 정해진 입력값의 범위를 벗어난 값을 찾기 위해서 타깃까지의 데이터를 학습을 시켜서 원하는 값을 찾을 수 있다.(키 220cm의 몸무게는 얼마일까?, 내 주변에 220cm의 키를 가진 사람이 없다. ㅜㅜ)
2-25
과적합(Over-fitting) = 과대적합 : 과대하게 적합(상향평균화)
또는 과소적합(하향평균화)
비지도 = 자율 +
상관관계와 인과관계는 서로 다르다. 구분하자.
상관관계 : 대등한 관계
인과관계 : 원인+결과 = 회귀분석
상관관계를 먼저 분석하고 회귀분석을 해야 한다.
2-28
차원축소 : 비교대상의 가중치값이 작은 것은 삭제하는 방법
2-29
주요다독특 (앞글자만 따서 암기)
2-30
파생변수 : 새로운 결과값을 가벼운 함수를 이용하여 결과값이 크게 변하지 않은 범위내에서 나온다.
바탕화면을 검게
이미지 암진단
613개의 70%를 사용하겠다.
이미지 임베디드는 이미지를 정형화시켜준다.
신뢰도 80% 기준으로 20번 반복 실행한다.
SVM 방식이 신뢰도가 제일 높다. 0.984
분류방법 4가지
위 내용은 머신러닝 공부를 시킨겻이다.
폴더
결과값이 50%50% 나올수도 있다. -> 공부데이터를 더 넣어줘야 더 확실한 값이 나올 수 있다.
https://www.dataq.or.kr/www/accept/schedule.do
혼동행렬은 분류 모델의 성능을 평가하는 데 사용되는 표이다. 이것은 예측값과 실제 값 사이의 관계를 시각적으로 보여주며, 주로 이진 분류 모델에서 사용된다. 혼동행렬은 다음과 같은 네 가지 요소로 구성된다
'자격증(국가,민간)' 카테고리의 다른 글
ADsP(데이터분석준전문가) YOUTUBE 동영상강의 (0) | 2024.03.22 |
---|---|
빅데이터 K-MOOC 강좌 (0) | 2024.03.14 |
빅데이터분석기사 (0) | 2024.03.06 |
일반기계기사(과정평가형) 2024 (0) | 2024.03.04 |
2024년 1회 기능장 및 기능사 실기시험 안내(장비&장소현황) (2) | 2024.02.04 |