* 블로그 요약본과 기출문제를 바탕으로 작성했습니다 =)
: 출제 문제
: 추가 정보
1. 데이터의 이해
1-1. 데이터의 이해
- 데이터와 정보
- 데이터베이스 정의와 특징
- 데이터베이스 활용
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜
3. 데이터 분석
3-1. 데이터 분석 개요
3-2. R 프로그래밍 기초
3-3. 데이터 마트
3-4. 통계분석
3-3. 정형 데이터 마이닝
데이터와 정보
# 데이터의 정의
- 데이터는 추론과 추정의 근거를 이루는 사실
- 단순한 객체로서의 가치 뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 가지는 것
# 데이터의 특성
- 존재적 특성: 객관적 사실
- 당위적 특성: 추론, 예측, 전망, 추정을 위한 근거
# 데이터의 유형
- 정성적(qualitative) 데이터: 형태와 형식이 정해져 있지 않아 저장, 검색, 분석하는데 많은 비용과 기술적 투자 수반
ex) 언어, 문자, ...
- 정량적(quantitative) 데이터: 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 유용
ex) 수치, 기호, 도형
- 정형 데이터 : 구조화 된 데이터. 미리 정해놓은 형식과 구조에 따라 저장된 데이터
(ex. 관계형 데이터베이스, 스프레드시트, csv데이터)
- 반정형 데이터 : 구조에 따라 저장된 데이터지만 데이터의 형식과 구조가 변경될 수 있는 데이터. 데이터의 구조 정보를
데이터와 함께 제공하는 파일 형식. 형태가 있으면서 연산이 불가능한 경우
(ex. URL 형태 - HTML / 오픈 API 형태 - XML, JSON / 로그 형태 - 웹 로드, IoT 센서 데이터)
- 비정형 데이터 : 정해진 구조 없이 저장된 데이터
(ex. 이진 파일 형태 - 동영상, 이미지 / 스크립트 파일 형태 - 소셜 데이터의 텍스트)
# 지식경영의 핵심 이슈
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함
암묵지 | 학습, 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는(내면의) 지식 |
형식지 | 문서나 메뉴얼 처럼 형상화된(전달과 설명이 가능한 적절히 표현되고 정리된) 지식 |
- 암묵지는 사회적으로 중요 but 타인에게 공유되기 어려움. 개인에게 축적된 내면화된지식이 조식의 지식으로 공통화 됨
- 형식지는 전달, 공유가 용이. 언어, 기호, 숫자로 표준화된 지식이 개인의 지식으로 연결화
# DIKW 피라미드
Data(데이터) | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실. 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미. 사건의 특징을 기술하는 사실. |
Information(정보) | 데이터의 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것. 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터. 상황에 맞게 의미 있고 유용하게 변환된 데이터. |
Knowledge(지식) | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것. 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물. |
Wisdom(지혜) | 지식의 축적과 아이디어과 결합된 창의적인 산물. 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어 |
데이터베이스 정의와 특징
# 데이터베이스의 정의
- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라서 편성된 데이터의 집합
- 관련된 레코드의 집합, 소프트웨어로는 데이터베이스 관리 시스템(DBMS)을 의미
- 문자, 기호, 음성 화상 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보 통신 기기에 의해 체계적으로 수집, 축적하여 다양한 용도, 방법으로 이용할 수 있도록 정리한 정보의 집합체
# DBMS (데이터베이스 관리 시스템)
- 사용자와 DB 사이에서 사용자의 요구에 따라 정보를 처리해주고 DB를 관리해주는 소프트웨어
- 사용자가 쉽게 DB를 구축하고 유지할 수 있도록 하는 소프트웨어
- DB와 DBMS를 함께 데이터베이스 시스템이라 함
# 데이터베이스의 특징
- 통합된 데이터(integrated data): 동일한 내용의 데이터가 종복되어 있지 않다는 것을 의미. 데이터 중복은 관리상의 복잡한 부작용을 초래
- 저장된 데이터(stored data): 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미. DB는 기본적으로 컴퓨터 기술을 바탕으로 한 것
- 공용 데이터(shared data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미. 대용량화, 복잡한 구조.
- 변화되는 데이터(changeable data): DB에 저장된 내용 = DB의 현 상태. 다만 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야함
- 데이터 베이스는 다양한 방법으로 필요한 정보를 검색할 수 있는 검색 가능성을 가짐
데이터웨어하우스
# 데이터웨어하우스
- 기업 내의 의사결정 지원 어플리케이션에 정보 기반을 제공하는 하나의 통합된 저장 공간
# 데이터 웨어하우스의 특성
- 데이터의 주제 지향성 : 특정 주제에 따라 데이터들이 분류, 저장, 관리됨
- 데이터 통합
- 데이터의 시계열성 : 데이터웨어하우스에서 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장함
- 데이터의 비휘발성
- 데이터웨어하우스의 데이터들은 전사적 차원에서 일관된 형식으로 정의됨
(특정 업무 분야에 초점을 맞춰 구축되는 것은 데이터 마켓)
- 기업 내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장공간
- ETL은 주기적으로 내외부 DB로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재함
- 데이터웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지함
데이터베이스의 활용
# OLTP (On-Line Transaction Processing, 온라인 거래 처리)
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태 중 하나.
- 여러 단말에서 보내 온 메시지에 따라 호스트 컴퓨터가 DB를 엑세스하고 바로 처리 결과를 돌려보내는 형태.
- 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
ex) 주문 입력 시스템, 재고 관리 시스템, ...
# OLAP (On-Line Analytical Processing)
- 정보 위주의 분석 처리를 의미
- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻게 해주는 시스템
- 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
# CRM (Customer Relationship Management)
- 기업이 고객과 관련된 내, 외부 자료를 분석, 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정
- 오늘날 CRM은 기존의 목적은 유지하고, 다양한 방법론을 모색 중임
# SCM (Supply Chain Management)
- 기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 '공급망 관리'를 뜻함
# ERP (Enterprise Resource Planning)
- 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리시스템의 경영자원을 하나의 통합 시스템으로 재구축해 생산성을 극대화하려는 경영혁신기법
- 기업 전체를 경영자원의 효과적으로 이용하기 위해 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
# BI (Business Intelligence)
- 기업이 보유하고 있는 수많은 데이터를 정리, 분석해 기업의 의사결정에 활용하는 일련의 프로세스
- 기업의 사용자가 더 좋은 의사결정을 하도록 데이터 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술
- 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
# BA(Business Analytics)
- 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
# Data Mining
- 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정
#####
# 데이터 양의 표시 단위
- 테라바이트 = 10244
- 페타바이트 = 10245
- 엑사바이트 = 10246
- 제타바이트 = 10247
- 요타바이트 = 10248
# 데이터에 대한 설명
- 1바이트는 0 ~ 255 까지의 정수 값을 표현할 수 있는 데이터의 크기를 의미
- 영어 한 글자는 1바이트로 저장할 수 있지만, 한글 한 글자는 2바이트로 저장하는 것이 일반적임
- 수치 데이터는 용량이 증가하더라도 텍스트 데이터에 비해 DBMS에서 관리하기 용이함
- 설문조사의 주관식 응답 = 텍스트 데이터 = 비정형 데이터 / 객관식 응답 = 수치형 데이터 = 정형 데이터
# 기업내부의 데이터베이스 활용
- 2000년대 들어서면서 기업 DB 구축의 화두는 CRM, SCM으로 바뀌었음
- 2000년대 들어 금융부문에 DW를 적극적으로 도입
- 제조부문은 DB 기술의 가장 중요한 적용분야로 부품 테이블이나 재고관리 등의 영역에서 DB 활용이 중점을 이루다가, 부품의 설계부터 유통까지 전 공정으로 확대 됨
- '실시간 기업' 기업의 비즈니스 프로세스를 투명하고 민첩하게 유지해 환경 변화에 다른 적응 속도를 최대화해 지연시간을 없애는 정보화 전략
# 데이터 무결성(integrity)
: DB 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경, 수정 시 제한을 두어 데이터의 정확성을 보증하는 것
# SQL
- _A% → _ : 하나의 글자 / % : 모든 문자 = 두 번째 문자가 A인 경우
- DDL (Data Definition Language, 데이터 정의어) : 데이터베이스 스키마 정의, 조작하기 위해 사용
. CREATE : 정의
. ALTER : 수정
. DROP : 삭제
. TRUNCATE : DROP 후 CREATE
- DML (Data Manipulation Language, 데이터 조작어) : 데이터 조작하기 위해 사용, 실질적 데이터 처리 위해 사용
. SELECT : 조회 (→ DQL(Data Query Language))
. INSERT : 추가
. DELETE : 삭제
. UPDATE : 변경
. LOCK, EXPLAIN, CALL 등
- DCL (Data Control Language, 데이터 제어어) : 데이터의 보안, 무결성, 회복, 병행, 수행제어 등을 정의
. COMMIT : 트랜잭션의 작업 결과를 반영 ( → TCL(Transaction Control Language): 트랜잭션 제어)
. ROLLBACK : 트랜잭션의 작업을 취소 및 원래대로 복구 ( → TCL: 트랜잭션 제어)
. GRANT : 사용자에게 권한 부여
. REVOKE : 사용자 권한 취소
'ADsP Study' 카테고리의 다른 글
ADsP) 1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2023.02.22 |
---|---|
ADsP) 1-2. 데이터의 가치와 미래 (0) | 2023.02.21 |