본문 바로가기
자격증/SQLD

2장 데이터 모델과 성능

by 동욷 2023. 3. 19.

성능 데이터 모델링

- 데이터베이스 성능 향상을 목적으로 데이터 모델 설계 시점부터 정규화, 반정규화, 테이블 통합, 테이블 분할, 조인 구조, PK, FK 등 여러가지 성능과 관련된 사항을 반영하는 것

 

- 데이터 모델링 시 정규화 작업을 수행한다

- 데이터베이스의 용량을 산정한다

- 데이터베이스에 발생되는 트랜잭션의 유형을 파악한다

- 데이터베이스의 용량 및 트랜잭션의 유형에 따라 반정규화를 수행한다

- 성능 관점에서 데이터 모델을 검증한다

- 이력 데이터 모델의 조정, PK/FK 조정 ,  슈퍼/서브 타입 변환 조정 등을 수행한다

 

 

정규화(Normalization) : 함수적 종속성(FD)와 같은 이론에 근거하여 관계형 데이터베이스 테이블의 삽입/삭제/갱신 이상 현상 발생을 최소화 하기 위해서 좀 더 작은 단위의 테이블로 설계

 

정규형 (NF : Normal Form) : 정규화한 결과 , 정규화 결과에 의해 도출된 데이터 모델이 갖춰야 할 특성을 만족한 형태

 

함수적 종속성 (FD : Functional Dependency) : 테이블의 특정 칼럼 A값을 알면 다른 값 B를 알 수 있을 때, B는 A에 함수적 종속성을 지닌다

 

결정자(Determinant) : 위에서 칼럼 A가 결정자다

 

다치종속(MVD : MultiValued Dependency) : 칼럼 A에 의해 다수의 칼럼 B를 알 수 있을 때, 다치 종속이다.

 

 

 

정규화 장점

-높은 응집도 & 낮은 결합도 => 유연성이 극대화 된다

-개념이 세분화 된다 => 해당 개념에 대한 재활용 가능성이 높아진다

-중복이 최소화 된다 => 데이터 품질이 확보되고 저장공간이 절약되며, DML 처리 시 성능이 향상된다

 

1차 정규화 : 속성의 원자성 확보 => 속성값 2개 이상 ? 1개씩 여러개로 나눔

2차 정규화 : 부분 종속 속성을 분리 => 한 테이블 내 종속이 있을 시 완전 종속이 되도록

3차 정규화 : 이행 종속 속성을 분리 => 일반 속성끼리의 함수 종속을 제거

보이스-코드 정규화 : 결정자 안에 함수 종속을 지닌 주 식별자 속성을 분리

4차 정규화 : 다치 종속 속성을 별도의 엔터티로 분리

5차 정규화 : 조인 종속 속성을 2개 이상의 엔터티로 분리

 

도-부-이-결-다-조

 

 

성능 측면

- 효율적인 인덱스 사용을 통해 조인 연산 수행 시 성능상의 단점은 거의 없음

- 적은 용량의 테이블이 생성 시, 조인 연산 시 유리

- 정규화를 한다면 과도한 인덱스 형성 대신 하나만 만들 수 있음

 

 

 

결정자 (Determinant) -> 종속자(Dependent)

 

 

반정규화(Denormalization)

- 시스템 성능 향상 및 개발과 유지보수의 단순화를 위해서 정규화된 데이터 모델을 분석하여 중복, 통합 , 분리 등의 작업을 수행하는 데이터 모델링 기법

 

ex) 데이터 중복 저장 -> 조인 연산 회피

 

반정규화 시 데이터 무결성이 깨질 수 있다

 

반정규화 사용하는 목적

- 데이터 조회 시 디스크 I/O양이 많아서 성능이 저하되는 경우

- 테이블 간 경로가 너무 멀어 조인 시 성능이 저하되는 경우

- 칼럼을 계산하여 읽을 때 성능이 저하될 경우

 

 

1) 테이블 병합

- 1:1 관계 테이블 병합 => 1:1 관계를 통합하여 성능을 향상 / 2개의 테이블을 하나로 병합하여 조인 연산 제거

- 1:M 관계 테이블 병합 => 1:M 관계를 통합하여 성능을 향상 / 2개의 테이블을 하나로 병합하여 조인 연산 제거

- 슈퍼/서브 관계 테이블 병합 => 슈퍼/서브 관계를 통합하여 성능을 향상 / 슈퍼/서브 타입 관계를 하나의 테이블로 병합하여 조인 연산 제거

 

2) 테이블 분할

- 수직 분할 : 칼럼 단위의 테이블을 디스크 I/O 분산 처리하기 위하여 1:1로 분리하여 성능 향상

- 수평 분할 :  로우 단위로 집중 발생되는 트랜잭션을 분석하여 디스크 I/O 및 데이터 접근 효율을 높여 성능 향상

 

수직 분할 : 칼럼 단위 분할

수평 분할 : 행 단위 분할

 

3) 테이블 추가

- 중복 테이블 추가

- 통계 테이블 추가

- 이력 테이블 추가

- 부분 테이블 추가

 

 

 

I/O

- 테이블 내에 모든 행은 블록 단위로 디스크에 저장

- 1개의 블록은 8kbyte(8192byte) 

- 칼럼이 많아지면 하나의 행 저장 시 여러 블록에 데이터를 저장해야함

- SQL 문의 블록 I/O 수가 많아져서 성능 저하가 발생

 

 

로우 체이닝(Row Chaining)

- 로우 길이가 너무 길어서 데이터 블록 하나에 데이터가 모두 저장되지 않고, 2개 이상의 블록에 걸쳐 하나의 로우가 저장되어 있는 형태

 

로우 마이그레이션(Row Migration)

- 데이터 블록에서 수정이 발생하면 수정된 데이터를 해당 데이터 블록에서 저장하지 못하고 다른 블록의 빈 공간을 찾아 저장하는 방식

 

해시 파티셔닝

- 지정된 HASH 조건에 따라 해싱 알고리즘을 적용하여 테이블을 분리

- 해싱 알고리즘에 의해 각각의 해시 파티션에 분리되어 데이터가 입력되므로 기존에 1개의 테이블에만 입력하는 방식보다 부하가 줄하든다

- 설계자 및 데이터 입력자도 정확히 어디에 저장되는 지 예측이 어렵다

- 경합에 의한 성능 부하 해소

- 데이터 보관 주기에 따라 쉽게 삭제하는 기능을 제공할 수 없음

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

 

슈퍼 / 서브 타입 모델 변환 방법

1) 슈퍼 타입(Single 타입, All in One 타입)

=> 슈퍼/서브 타입 모델을 하나의 테이블로 변환한 것

 

2) 서브 타입(Plus 타입, Super + Sub)

=> 슈퍼/서브 타입을 서브 타입 테이블들로 변환

 

3) 개별 타입(OneToOne 타입, 1:1타입)

=> 슈퍼타입, 서브타입 각각 개별 테이블로 변환하여 슈퍼테이블 , 서브 테이블 모두 생성

 

 

슈퍼타입/서브타입 모델 변환의 중요성

- 트랜잭션은 항상 슈퍼타입 기준으로 처리하는데 테이블은 개별 타입으로 유지되어 UNION 연산에 의하여 성능이 저하된다

- 트랜잭션은 항상 서브 타입을 기준으로 처리하는데 슈퍼 타입으로 되어 있는 경우 성능이 저하되는 경우가 있다.

- 트랜잭션은 항상 개별 타입 기준으로 처리하는데, 테이블은 슈퍼타입으로 되어있어서 불필요하게 많은 양의 데이터가 집약되어 성능이 저하되는 경우

 

<정리>

슈퍼타입

- 하나의 테이블

- 확장성 나쁨

- 조인 성능 우수함

- I/O 성능 나쁨

- 관리 용이성 좋음

- 전체를 일괄적으로 처리 하는 경우 선택

 

서브 타입

- 각각 서브 타입 테이블

- 확장성 보통

- 조인 성능 나쁨

- I/O 성능 좋음

- 관리 용이성 좋지 않음

 

개별 타입

- 슈퍼, 서브 각각의 테이블

- 확장성 좋음

- 조인 성능 나쁨

- I/O 성능 좋음

- 관리 용이성 좋지 않음

 

 

 

기본키(PK)

- 테이블에는 기본키가 존재한다

- 단일 PK : 단 1개의 칼럼

- 복합 PK : 2개 이상의 칼럼

 

PK 칼럼의 순서에 따라 SQL문의 성능이 빨라질 수도 있고 느려질 수도 있다

 

 

외래키(FK)

- 관계에 의한 외래키(FK) 제약이 걸린 경우, 해당 FK 제약(논리 데이터 모델에서의 관계)이 실제 물리 데이터베이스에 적용될지 안될지는 물리 데이터 모델 설계자의 몫

- FK 제약조건이 있다면 외래키 칼럼에 대해 인덱스를 생성하는 것이 성능상 유리한 경우가 많다.

 

 

분산 데이터베이스의 개요

- 여러 곳으로 분산되어 있는 데이터베이스를 하나의 가상 시스템으로 사용할 수 있도록 한 데이터베이스

 

투명성(Transparency)

- 해당 데이터베이스를 사용하는 사용자가 데이터베이스 시스템이 분산되어 있는 것을 인식하지 못하고 자신만의 데이터베이스 시스템을 사용하는 것으로 인식하도록 만드는 것

 

분할 투명성(단편화) => 하나의 논리적 Realtion이 여러 단편을 분할되어 각 단편의 사본이 여러 Site에 저장된다

위치 투명성 => 사용하려는 데이터의 저장장소를 명시할 필요가 없다

지역 사상 투명성 => 지역 DBMS와 물리적 DB사이의 Mapping을 보장한다

중복 투명성 => DB객체가 여러 Site에 중복되도 사용자는 모른다

장애 투명성 => 구성요소(DBMS, Computer)의 장애에 무관한 Transcation의 원자성을 유지한다

병행 투명성 =>다수의 Transcation이 동시에 수행 시 결과의 일관성이 유지된다

 

 

장점 : 지역자치성, 점증적 시스템 용량 확장 / 신뢰성과 가용성 / 효율성과 융통성 / 빠른 응답 속도와 통신비용 절감 / 데이터의 가용성과 신뢰성 증가 / 시스템 규모의 적절한 조절 / 각 지역 사용자의 요구 수용 증대

 

단점 : 소프트웨어 개발 비용 / 오류의 잠재성 증대 / 처리비용 증대 / 설계 및 관리의 복잡성과 비용 / 불규칙한 응답속도 / 통제의 어려움 / 데이터 무결성에 대한 위협

 

 

분산 데이터베이스 적용 기법

- 테이블 위치(Location) 분산 : 설계된 테이블의 위치를 각각 다르게 위치시키는 것이다.

- 테이블 분할(Fragmentation) 분산 : 각각의 테이블을 쪼개어 분산하는 방법이다.

 

   수평 분할 : 특정 칼럼값을 기준으로 Row를 분리

   수직 분할 : 특정 칼럼값을 기준으로 칼럼을 분리 , 로우 단위로는 분리하지 않는다.

 

 

- 테이블 복제(Replication) 분산 : 동일한 테이블을 다른 지역이나 서버에서 동시에 생성하여 관리하는 유형

 

   부분 복제 : 통합된 테이블을 한 군데에 가지고 있으면서 각 지사별로는 지사에 해당된 로우를 가지고 있음

   광역 복제 : 통합된 테이블을 한 군데에 가지고 있으면서 각 지사별로도 본사와 동일한 모든 데이터 가지고 있음

 

- 테이블 요약(Summarization) 분산 : 지역간 , 서버 간 데이터가 비슷하지만 서로 다른 유형으로 존재하는 경우

  

     분석 요약 : 각 지사별로 존재하는 요약 정보를 본사에 통합하여 다시 전체에 대해서 요약정보를 산출하는 분산 방법

     통합 요약 : 각 지사별로 존재한는 다른 내용의 정보를 본사에서 통합하여 다시 전체에 대해서 요약 정보를 산출

 

 

 

 

 

728x90

'자격증 > SQLD' 카테고리의 다른 글

4장 SQL 기본2  (0) 2023.03.19
3장 SQL 기본  (0) 2023.03.19
1장 데이터 모델링의 이해  (0) 2023.03.18