본문 바로가기
자격증(국가,민간)

빅데이터분석기사 (중소벤처기업연수원KOSME_전주)

by e1mo518518 2024. 3. 12.
728x90
728x90
SMALL

빅데이터분석기사  심흥섭 교수

 

20240312 1일차 오전

 

ADP(데어터분석전문가) : 3%

빅데이터분석기사 25%(합격률)

ADSP(데이터분석기사) : 빅데이터분석기사보다 낮는 수준의 자격증 35%

 

시험은 1년 2회

R, PYTHON 선택 5문제 PYTHON은 3년 정도 사용해야 시험응시할 수준이 된다.

R은 암기해서 시험 볼 수 있는 정도의 수준은 맞출 수 있다.

필기 합격 후 실기 불합격은 1년간의 유효기간이 된다.

 

ADSP + 1 = 기사 응시 자격

정보통신 개꿀 : 1) 정보통신감리사, 2) ISMS-P 개인정보관련, 3) ADP

1), 2) : 프로그램짜지 않아도 할 수있다.

 

https://www.lyzeum.com/index.asp

 

라이지움

02)5377.144 / e-mail:Lyzeum@Lyzeum.com 하나은행(예금주:(주)라이지움) 448-910001-08804 하나은행(예금주:(주)리케이온) 215-910016-86304

www.lyzeum.com

 

R : 3개월이면 딥러닝, 머신러닝 가능하다.

https://www.r-project.org/

 

R: The R Project for Statistical Computing

 

www.r-project.org

 

 

KNN

EDA : 통계기반 : 이 쪽이 어렵다.

 

회귀분석 : 시험에 잘 나온다.

단순회귀 : X,Y축 1:1 대응, 단순선형

다중회귀

로지스틱스회귀

 

SVm

대전 통계교육원 교육을 알아보자.

 

돈되는 국가자금

AI

ESG -> 지속가능성보고서 -> 어카운터빌리지(영국 비영리 단체) 인증도장 -> 

KTL(한국화학실험원) + KTR(KS인증원) -> ESG 인증을 해준다.

 

ESG 전문 자격증 IQCS(ISO 인증해주는 곳에서 주는 공인자격증)

ISO 9001 : 품질경영시스템 인증

ISO 14001 : 환경경영시스템 인증

ISO 45001 : 안전보건경영시스템 인증

ISO 27001 : 국제표준 정보보호 인증

 

https://www.iqcsplus.co.kr/main.htm

 

IQCS

IQCS, ISO 심사원 자격인증, 국제자격시험, 온라인시험

www.iqcsplus.co.kr

 

탄소중립 경영혁신 바우처 = ESG 5000만원 지원 9페이지 참고

 

 

 

1일차 오후

 

빅분기-1

3. 통계기법 이해 : 중요한 단원

4. 빅데이터 모델링 : 출제많아 나옴

1권 : 교과서의 개념

 

 

 

1-15 빅데이터의 이해

 

데 정 식 혜

 

15

 

 

 

 

7V

 

17

 

연내공표

 

 

18

 

 

https://www.accountability.org/standards/training/ACSAP/

 

Associate CSAP

Associate Practitioners (ACSAP) are professionals who are not directly involved in the assurance process or for trainee assurance practitioners (internal or external).

www.accountability.org

 

 

https://www.ktr.or.kr/main/index.do

 

KTR

 

www.ktr.or.kr

 

 

https://blog.naver.com/ksaqs/223189500666

 

한국표준협회 / 국내 최초 AA1000 검증심사원 국제자격 교육 실시

AA1000 검증심사원 국제자격 교육 - 글로벌 지속가능경영보고서 검증심사원 자격 국내 취득 가능 한국표...

blog.naver.com

 

AA1000에 대해서 알아보자.

국내 인증자격증은 공신력이 없다. 국제 인증자격증을 취득해야 한다.(서정태는 믿지말자)

 

https://search.ksa.or.kr/search.jsp

 

한국표준협회 통합검색

검색어를 입력해 주세요. 단어의 철자가 정확한지 확인해 주시기 바랍니다. 검색어의 단어 수를 줄이거나, 다른 검색어(유사어)로 검색해 보시기 바랍니다. 일반적으로 많이 사용하는 검색어로

search.ksa.or.kr

 

https://www.ksaedu.or.kr/edu/course/view.user?paramMap.course_code=COL88421

 

교육신청 - KSA EDU

학습목표 ㅇ [Certification] AA1000 CSAP(Certificate Sustainability Assurance Practitioner) 자격 * 취득 * AccountAbility 사 인증 자격 ㅇ [Knowledge] AA1000SES 이해관계자 참여표준, AA1000AP AccountAbility 원칙, AA1000AS v3 검증표

www.ksaedu.or.kr

 

ESG, AI, BigData 는 연결되어있는 분야이다.

 

Hadoop

https://ko.wikipedia.org/wiki/%EC%95%84%ED%8C%8C%EC%B9%98_%ED%95%98%EB%91%A1

 

아파치 하둡 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지

ko.wikipedia.org

 

파이썬 개발자(로섬에서 온 귀도) 파이썬(뱀) -> 아나콘다(플랫폼)

https://namu.wiki/w/%EA%B7%80%EB%8F%84%20%EB%B0%98%20%EB%A1%9C%EC%84%AC

 

귀도 반 로섬

네덜란드 출신 프로그래머 이다. Python 을 개발한 사람으로 잘 알려져 있다. 활동 1991년 에 Pyt

namu.wiki

 

 

https://namu.wiki/w/R(%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D%20%EC%96%B8%EC%96%B4)

 

R(프로그래밍 언어)

R-project 공식 웹사이트 1992년 뉴질랜드 에 위치한 오클랜드 대학교 에서 개발된 통계 (stati

namu.wiki

 

빅데이터는 나온지 얼마안되었지만, 회귀분석은 1000년도 넘은 방식이다.

 

빅데이터 1,2,3 과목은 레이아웃을 만드는 과정이다.

 

BARD 와 GEMINI는 팀이 다르다. 버전이 다르다고는 생각하지 말자.

 

정 -> 반정형데이타(JASON) - > 비정형

반정형데이타를 잘 다루어야 한다.

 

머신러닝 ML + DP = AI

ML - 지도학습 : 타킷 = Y = 레이블 = 라벨

분류 - 범류, 수치 - 예측

 

자율학습 -> 군집

 

분류 - 카테고리가 있다. 스포츠+과학+사회+예술

카테고리가 확실하게 나누어지는것.

카테고리의 일부와 카테고리의 일부가 섞여 있는 것.

 

전처리는 엑셀을 잘 사용해야 한다. 로우데이터를 필터링을 해서 원하는 데이터를 정리해놔야 한다.

 

엑셀 - 파일-더보기-옵션-추가기능

 

 

 

 

https://youtu.be/gJhlK7J9inA?si=5yPeA0GbthaGlncS

 

 

ADSP는 필기만 있다.

 

상향식 + 하향식 = 디자인씽킹

 

비즈니스캔버스모델(9개로 구성) P1P72

https://brunch.co.kr/@givemore/3

 

비즈니스 모델 캔버스란?

비즈니스 모델 캔버스 #1 | 비즈니스 모델 캔버스(Business Mode Canbas, BMC)는 비즈니스에 포함되어야 하는 9개의 주요 사업 요소를 한눈에 볼 수 있도록 만든 그래픽 템플릿이다.1990년대부터 2000년대

brunch.co.kr

 

p1p74

Optimization최적화, Insight통찰, Solution해결책, Discovery발견

 

시그모이드함수 P1P73

https://namu.wiki/w/%EC%8B%9C%EA%B7%B8%EB%AA%A8%EC%9D%B4%EB%93%9C

 

시그모이드

sigmoid (function) 기울어진 S 자 형태 의 곡선 이다. sigmoid라는 말 자체가 S자 모양

namu.wiki

 

이항분포가 사용하기 편하고 자주 사용된다.( 0 or 1) 갈지말지, 먹을지말지,

 

 

20240313 2일차 오전

1-84

 

https://salaryblues.tistory.com/3

 

좋은 WBS를 작성하는 방법과 샘플 양식 공유(다운로드)

WBS 개념 WBS란 Work Breakdown Structure의 약자로, 업무 분업 구조 또는 작업 분해 구조를 말합니다. 이는 프로젝트를 효율적으로 진행하기 위해 업무 일정을 계획하고 관리할 수 있는 가장 중요한 기초

salaryblues.tistory.com

 

1-85

포커스그룹 : 좋은 방법의 요구사항, 일정수준(기준)이상의 대상으로 하는 방법

인터뷰 : 랜덤의 대상, 반대측이 많을 수도 있다.

 

https://analytics.naver.com/

 

네이버 애널리틱스

방문분석 방문현황(UV), 신규/재방문자 수, 시간대별 방문분포 등 방문자의 방문 특성을 이해하기 위한 종합적인 정보를 제공합니다. 중요한 고객유형(신규/재방문)이 잘 방문하는지, 방문이 집

analytics.naver.com

 

 

카피킬러, 표절검토

https://www.copykiller.com/

 

카피킬러라이트

 

www.copykiller.com

 

 

1-89 03 데이터 수집 및 저장 계획

 

https://www.aihub.or.kr/

 

AI-Hub

[한국어] 감성 대화 말뭉치 #코퍼스 # 감성대화 # 감성 챗봇 # 우울증 예방 조회수 60,746 관심등록 214 다운수 8,996

www.aihub.or.kr

 

1-89

SCM : Supply Chain Management

ERP

CRM : Custumer Ralationship Menagement

 

 

데이터웨어하우스 > 데이터 마트 (웨어하우스가 크기가 크다.)

 

AI 바우처 공급기업목록

https://aihub.or.kr/devsport/aivouchsport/list.do

 

AI-Hub

※ 본 페이지에 제공되는 정보의 주체는 NIPA에서 관리하고 있음을 알려드립니다. ㆍ등록된 업체 수 (1,348개) 업데이트 일자 : 2024-03-12 공급기업 Pool 기업명 전문 분야 AI 솔루션 기업정보 기업유형

aihub.or.kr

 

 

스키마 = 구조

 

1-100

 

데이터

-수치형(정량데이터) -> 히스토그램으로그린다.

--정수 : 이산형데이터 : 정수나 카테고리 등과 같이 연속되지 않는 값들로 이루어진 데이터

-- 소수 : 연속형데이터 : 데이터를 말합니다. 이러한 데이터는 일정한 간격으로 측정되거나 수집되며, 그 사이에는 무한히 많은 가능한 값을 가질 수 있습니다. 

-범주형(정형데이터) -> 막대OR원그래프로 그린다.

-- 명목형뎅터 : 순서를 매길 수 없는 데이터로, 예를 들면, 성별, 종교, 색깔 등이 명목형

-- 순서형데이터 : 순서형 데이터란 데이터의 항목이 순서 또는 시간적 흐름에 따라 배열되는 데이터

 

지문 : 5000명당 1명은 같을 수 있다.

DNA : 1/1억

 

1-101

X = 독립변수 = 설명변수 = 원인

Y = 종속변수 = 반응변수 = 결과

개인특성(Features) : 11개이면 2^11

 

https://product.kyobobook.co.kr/detail/S000000907349

 

R 하기 좋은 날 | 문재영 - 교보문고

R 하기 좋은 날 | 필자는 처음 R 언어를 배우는 분들을 염두에 두고 이 책을 서술하였다. 저술하면서 내용을 가급적 간략히 언급하였고, 어려운 용어는 알기 쉽게 풀어 쓰려고 노력하였다. 또한,

product.kyobobook.co.kr

 

 

https://product.kyobobook.co.kr/detail/S000209030789

 

Power BI | 심흥섭 - 교보문고

Power BI | Microsoft의 Power BI는 대표적인 데이터 분석 및 시각화 도구 중 하나로 자리 잡고 있다. Power BI는 풍부한 시각화 기능, 직관적인 사용자 인터페이스, 그리고 Microsoft의 다른 제품군과의 뛰어

product.kyobobook.co.kr

 

부산공공데이터

https://data.busan.go.kr/index.nm;jsessionid=27465D6DBE9BDFC78595633F29D45DCB

 

공공데이터포털

 

data.busan.go.kr

 

https://bigdata.busan.go.kr/

 

부산광역시 빅데이터 플랫폼

시민과 소통하고 공유하는 부산시 빅데이터 플랫폼에서 부산의 현재와 미래를 만나보세요.

bigdata.busan.go.kr

 

 

POWER BI 보다 다루기 쉬운 프로그램.스크레치처럼 사용가능.머신러닝을 쉽게 할 수 있다.

https://orangedatamining.com/

 

Orange Data Mining

Orange Data Mining Toolbox

orangedatamining.com

 

HIRA 빅데이터 개방포털(보건의료빅데이터 개방시스템)

https://opendata.hira.or.kr/home.do

 

보건의료빅데이터개방시스템

건강보험심사평가원에서 보유하고 있는 다양한 보건의료데이터를 국민에게 개방합니다. 서비스 소개 바로가기 이전 일시정지 시작 다음

opendata.hira.or.kr

 

ChatGPT 초급 도움이 될 자료(2023.05.04)

https://sdf.seoul.kr/research-report/2077

 

서울디지털재단

[통합편 : 일상활용·업무활용] ChatGPT활용 사례 및 활용 팁 (개정판)

sdf.seoul.kr

 

 

https://sdf.seoul.kr/research-report/2168?srchKey=sj&srchText=chatgpt

 

서울디지털재단

소상공인 비즈니스 역량 강화를 위한 ChatGPT 활용 매뉴얼

sdf.seoul.kr

 

2-5

NA : 값에 대한 정의를 내릴 수 없다.

NULL : 값이 너무 많다.

 

 

 

 

https://iitp.kr/kr/1/knowledge/statisticsView.it?masterCode=publication&searClassCode=K_STAT_01&identifier=02-008-231219-000001

 

지식 > 정책/통계자료 > 정책/통계 상세정보 | IITP

잠시만 기다려 주시길 바랍니다.

iitp.kr

 

 

2-10

베이지안

완벽한 베이지안

 

2-11

평균 : 상황에 따라 기준을 달리 구해야 한다.

-산술

-기하

-조화

-가중

 

 

 

20240314 3일차 오전

2-12

 

조선왕조실록

https://sillok.history.go.kr/main/main.do;jsessionid=5F7BB282190A7BC35C5E32ADAF7B1232

 

조선왕조실록

 

sillok.history.go.kr

 

빅데이터의 모든것

https://some.co.kr/

 

썸트렌드(Sometrend)

사람들의 생각이 궁금할 때, 썸트렌드에서 빅데이터 인사이트를 찾아보세요.

some.co.kr

 

토큰화는 문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 하는 방법이다.

토큰 = 맛+집  2개

말뭉치 = 맛집

말뭉치(Corpus)는 형태소로 분할하기 위해 토큰(Token) 단위로 나누어 작업힌다.

 

https://www.notion.so/ko-kr

 

내 위키, 문서, 프로젝트를 모두 한 곳에서 만나는 커넥티드 워크스페이스 | Notion (노션)

사용하는 모든 업무 앱을 Notion 하나에 담아 팀원들과 함께하는 올인원 워크스페이스를 꾸려 보세요.

www.notion.so

 

엑셀 빠른채우기

https://www.google.com/search?q=%EC%97%91%EC%85%80+%EB%B9%A0%EB%A5%B8%EC%B1%84%EC%9A%B0%EA%B8%B0&rlz=1C1CHZN_koKR979KR979&oq=%EC%97%91%EC%85%80+%EB%B9%A0%EB%A5%B8%EC%B1%84%EC%9A%B0%EA%B8%B0&gs_lcrp=EgZjaHJvbWUyCQgAEEUYORiABDIHCAEQABiABDIHCAIQABiABDIICAMQABgIGB7SAQk1MTYzajBqMTWoAgCwAgA&sourceid=chrome&ie=UTF-8

 

🔎 엑셀 빠른채우기: Google 검색

 

www.google.com

 

20240314 3일차 오후

 

코딩에서 변수값은 "문자"가 항상 맨앞에 와야 한다. 숫자가 맨앞에 오면 오류가 난다.

 

통계 : 정해진 입력값의 범위 내에서 원하는 값을 찾을 수 있다.(160~180cm 까지의 몸무게, 인터뷰를 통해 값을 구한다.)

머신러닝 : 정해진 입력값의 범위를 벗어난 값을 찾기 위해서 타깃까지의 데이터를 학습을 시켜서 원하는 값을 찾을 수 있다.(키 220cm의 몸무게는 얼마일까?, 내 주변에 220cm의 키를 가진 사람이 없다. ㅜㅜ)

 

2-25

과적합(Over-fitting) = 과대적합 : 과대하게 적합(상향평균화)

또는 과소적합(하향평균화)

 

비지도 = 자율 + 

 

상관관계와 인과관계는 서로 다르다. 구분하자.

상관관계 : 대등한 관계

인과관계 : 원인+결과 = 회귀분석

상관관계를 먼저 분석하고 회귀분석을 해야 한다.

 

2-28

차원축소 : 비교대상의 가중치값이 작은 것은 삭제하는 방법

 

2-29

주요다독특 (앞글자만 따서 암기)

 

2-30

파생변수 : 새로운 결과값을 가벼운 함수를 이용하여 결과값이 크게 변하지 않은 범위내에서 나온다.

 

 

 

 

바탕화면을 검게

 

 

 

 

 

 

 

 

이미지 암진단

613개의 70%를 사용하겠다.

이미지 임베디드는 이미지를 정형화시켜준다.

 

신뢰도 80% 기준으로 20번 반복 실행한다.

 

 

SVM 방식이 신뢰도가 제일 높다. 0.984

 

분류방법 4가지

 

위 내용은 머신러닝 공부를 시킨겻이다.

폴더

 

 

 

 

 

결과값이 50%50% 나올수도 있다. -> 공부데이터를 더 넣어줘야 더 확실한 값이 나올 수 있다.

 

 

https://www.dataq.or.kr/www/accept/schedule.do

 

데이터자격시험

데이터아키텍처 준전문가 제56회 - 2.12~16 2.29 3.16(토) 4.5~9 4.12 -

www.dataq.or.kr

 

 

 

혼동행렬은 분류 모델의 성능을 평가하는 데 사용되는 표이다. 이것은 예측값과 실제 값 사이의 관계를 시각적으로 보여주며, 주로 이진 분류 모델에서 사용된다. 혼동행렬은 다음과 같은 네 가지 요소로 구성된다

 

 

 

 

LIST