[MariaDB][ADMIN] INNODB 클러스터 인덱스(클러스터 테이블) 개념 및 성능 분석

MariaDB/Admin

[MariaDB][ADMIN] INNODB 클러스터 인덱스(클러스터 테이블) 개념 및 성능 분석

DBA_JSH 2020. 6. 23. 23:39

1.클러스터링 인덱스 지원 엔진

- InnoDB, TokuDB

2. 클러스터링 인덱스 적용 대상

- 프라이머리 키(PK)

3. 클러스터링 인덱스 구성 방법

- PK 기준으로 정렬되어 레코드가 저장되며, PK가 변경된다면 레코드의 물리적인 저장 위치가 변경 된다.(Non 클러스터 테이블은 INSERT 될때 파일의 끝 또는 임의의 빈공간에 저장되고, 위치 변경은 없다. 레코드가 저장 된 주소(ROWID)를 식별 아이디로 인식함)

- 클러스터키를 구성하는 우선순위는 아래와 같다.

- PK가 있으면 클러스터 키로 선택 > NOT NULL 제약조건의 유니크 인덱스 중에서 첫번째 인덱스를 클러스터 키로 선택 > 임의의 유니크 값을 생성하여 클러스터 키로 선택

4. 클러스터링 인덱스와 보조 인덱스(Secondary index)와의 관계

- InnoDB 테이블의 모든 보조 인덱스는 해당 레코드가 저장된 주소가 아니라 PK값을 저장하도록 구현 됨(인덱스 검색 > 레코드의 PK확인 > PK로 테이블 검색 후 최종 데이터 추출)

5. 클러스터링 인덱스 장단점

- 장점 : PK로 검색 할때 처리 성능이 매우 빠름, 모든 보조 인덱스가 PK를 갖고 있기 때문에 인덱스만으로 처리 될 수 있는 경우가 많음(커버링 인덱스)

- 단점 : 모든 보조 인덱스가 PK를 갖고 있기 때문에 인덱스 크기가 커짐, INSERT 할 때 PK에 의해 레코드의 저장 위치가 결졍되어 처리 성능이 느림, PK를 변경 할때 DELETE, INSERT가 발생하여 처리 성능이 느림

6. Non-Clusterd Index(B-Tree) Vs Clusterd Index

- 공통점: 키 값으로 정렬되어 저장

- 차이점: B-Tree의 리프 노드와 달리 클러스터링 인덱스의 리프 노드에는 레코드의 모든 컬럼이 같이 저장되어 있음

6.1 테스트

#테스트 환경

- CentOS 7.4

- MariaDB 10.3.8

# 테스트 내용

- Clusterd Index(InnoDB) 와 Non-Clusterd Index(MyISAM) 크기 및 성능 비교

1. 테스트 테이블 및 데이터 생성 

/*클러스터링 테이블 생성*/
CREATE TABLE test.INNODB_CLUSTER_TABLE(
  SEQ_NO  int(9) NOT NULL AUTO_INCREMENT,
  CONN_DATE datetime NOT NULL ,
  ID varchar(100) NOT NULL ,  
  NAME varchar(100) NOT NULL ,
  PRIMARY KEY (SEQ_NO,CONN_DATE)  
) ENGINE=InnoDB ;

/*Non클러스터링 테이블 생성*/
CREATE TABLE test.MyISAM_NON_CLUSTER_TABLE(
  SEQ_NO  int(9) NOT NULL AUTO_INCREMENT,
  CONN_DATE datetime NOT NULL ,
  ID varchar(100) NOT NULL ,  
  NAME varchar(100) NOT NULL ,
  PRIMARY KEY (SEQ_NO,CONN_DATE)  
) ENGINE=MyISAM ;

/*200만건  데이터 적재*/
INSERT INTO test.INNODB_CLUSTER_TABLE(CONN_DATE,ID,NAME) 
SELECT CONCAT('2020-03-', LPAD(FLOOR(1+RAND()*30),2,'0'),' 09:51:30.000'),SUBSTRING (MD5( RAND ()) from 1 for 6),SUBSTRING (MD5( RAND ()) from 1 for 6)
FROM   seq_1_to_2000000;

INSERT INTO test.MyISAM_NON_CLUSTER_TABLE(CONN_DATE,ID,NAME) 
SELECT CONCAT('2020-03-', LPAD(FLOOR(1+RAND()*30),2,'0'),' 09:51:30.000'),SUBSTRING (MD5( RAND ()) from 1 for 6),SUBSTRING (MD5( RAND ()) from 1 for 6)
FROM   seq_1_to_2000000;

2. 클러스터링 테이블과 Non클러스터링 테이블 용량 비교 
  - INNODB_CLUSTER_TABLE(ibd ) : 96MB
  - MyISAM_NON_CLUSTER_TABLE(MYD) + MyISAM_NON_CLUSTER_TABLE(MYI) = 54M + 30M = 84MB

3. 클러스터링 인덱스과 Non클러스터링 인덱스(B-Tree) 생성
ALTER TABLE test.INNODB_CLUSTER_TABLE ADD INDEX INNODB_CLUSTER_TABLE_IX01(ID,NAME);
ALTER TABLE test.MyISAM_NON_CLUSTER_TABLE ADD INDEX INNODB_CLUSTER_TABLE_IX01(ID,NAME);

4. 인덱스 추가 후 용량 비교(보조 인덱스에 클러스터 키가 추가되어 생성 되기 때문에 동일한 인덱스를 생성해도 2배이상 용량 차이가 발생)
  - INNODB_CLUSTER_TABLE(ibd ) : 156(+60)MB
  - MyISAM_NON_CLUSTER_TABLE(MYD) + MyISAM_NON_CLUSTER_TABLE(MYI) = 54M + 30M(+24) = 108MB

5. 클러스터링 인덱스와 Non클러스터인덱스 성능 비교 
  5.1  PK 인덱스 컬럼 조회(PK인덱스 조건)
  SELECT  A.SEQ_NO, A.CONN_DATE        
  FROM    test.INNODB_CLUSTER_TABLE A 
  WHERE   1=1
  AND   A.SEQ_NO BETWEEN 1 AND 1500000
  AND   A.CONN_DATE BETWEEN STR_TO_DATE(202003010100,'%Y%m%d%H%i%s') AND STR_TO_DATE(20200310235959,'%Y%m%d%H%i%s');
  483815 rows in set (0.572 sec)

  SELECT  A.SEQ_NO ,A.CONN_DATE       
  FROM    test.MyISAM_NON_CLUSTER_TABLE A 
  WHERE   1=1
  AND   A.SEQ_NO BETWEEN 1 AND 1500000
  AND   A.CONN_DATE BETWEEN STR_TO_DATE(202003010100,'%Y%m%d%H%i%s') AND STR_TO_DATE(20200310235959,'%Y%m%d%H%i%s');
  499694 rows in set (0.671 sec)

  비교 결과 : PK컬럼만 사용 할때는 성능의 차이는 거의 없다.


  5.2 테이블 전체 컬럼 조회(PK인덱스 조건) 
  SELECT  A.SEQ_NO ,A.CONN_DATE ,A.ID ,A.NAME 
  FROM    test.INNODB_CLUSTER_TABLE A 
  WHERE   1=1
  AND   A.SEQ_NO BETWEEN 1 AND 1500000
  AND   A.CONN_DATE BETWEEN STR_TO_DATE(202003010100,'%Y%m%d%H%i%s') AND STR_TO_DATE(20200310235959,'%Y%m%d%H%i%s');
  483815 rows in set (0.695 sec)

  SELECT  A.SEQ_NO ,A.CONN_DATE ,A.ID ,A.NAME 
  FROM    test.MyISAM_NON_CLUSTER_TABLE A 
  WHERE   1=1
  AND   A.SEQ_NO BETWEEN 1 AND 1500000
  AND   A.CONN_DATE BETWEEN STR_TO_DATE(202003010100,'%Y%m%d%H%i%s') AND STR_TO_DATE(20200310235959,'%Y%m%d%H%i%s');
  499694 rows in set (3.087 sec)

  비교 결과 : 클러스터 인덱스는 모든 컬럼을 갖고 있기 때문에 테이블 엑세스가 없다. 
                      Non클러스터 인덱스는 테이블 엑세스 하여 컬럼의 값을 불러 온다.

  5.3  보조 인덱스 컬럼 조회(보조인덱스 조건)
  SELECT  A.ID ,A.NAME 
  FROM    test.INNODB_CLUSTER_TABLE A 
  WHERE   1=1
  AND     A.ID LIKE '9%'
  AND     A.NAME LIKE 'b%';
  15700 rows in set (0.135 sec)

  SELECT  A.ID ,A.NAME 
  FROM    test.MyISAM_NON_CLUSTER_TABLE A 
  WHERE   1=1
  AND     A.ID LIKE '9%'
  AND     A.NAME LIKE 'b%';
  15644 rows in set (0.201 sec)

  5.4  테이블 전체 컬럼 조회(보조인덱스 조건)
  SELECT  A.SEQ_NO ,A.CONN_DATE ,A.ID ,A.NAME 
  FROM    test.INNODB_CLUSTER_TABLE A 
  WHERE   1=1
  AND     A.ID LIKE '9%'
  AND     A.NAME LIKE 'b%';
  15700 rows in set (0.106 sec)

  SELECT  A.SEQ_NO ,A.CONN_DATE,A.ID ,A.NAME 
  FROM    test.MyISAM_NON_CLUSTER_TABLE A 
  WHERE   1=1
  AND     A.ID LIKE '9%'
  AND     A.NAME LIKE 'a%';
  15718 rows in set (1 min 0.115 sec)

  비교 결과 : 클러스터 보조 인덱스는 PK값을 갖고 있기 때문에, 테이블 엑세스 없이 테이블의 전체 컬럼을 조회 할 수 있다.
                 Non클러스터 보조 인덱스는 테이블 엑세스 하여 컬럼의 값을 불러 온다.

7. 결론

- MariaDB(MySQL)의 InnoDB 클러스터링 인덱스(테이블)는 정렬 구조 테이블이기 때문에 DML 성능 저하 및 저장 공간 과사용이라는 단점을 갖고 있으나, 데이터 조회 할 때 매우 뛰어난 성능을 보장하는 특징을 갖고 있다.

- 클러스터링 인덱스를 정확히 이해하고 SQL을 작성해야 최대 성능을 끌어 낼 수 있다.

참고 URL : https://12bme.tistory.com/149

'MariaDB > Admin' 카테고리의 다른 글

[MariaDB][ADMIN] Deadlock found when trying to get lock; try restarting transaction 장애 원인 및 처리 방법 (0)	2020.05.29
[MariaDB][ADMIN] Lock wait timeout exceeded; try restarting transaction 장애 원인 및 처리 방법 (0)	2020.05.20
[MariaDB][ADMIN] Waiting for table metadata lock 장애 처리 방법 (0)	2020.05.14
[에러] ERROR 1932 (42S02): Table [테이블명] doesn't exist in engine (0)	2017.09.26
[MariaDB][ADMIN] show processlist - Waiting for table metadata lock (0)	2017.03.29

현재글[MariaDB][ADMIN] INNODB 클러스터 인덱스(클러스터 테이블) 개념 및 성능 분석

MongoDB #WiredTiger,

Today :
Yesterday :

aDBanced Team