728x90

I/O와 디스크의 관계

오라클을 이해하기 위한 키워드

  1. 병렬 처리를 가능케 하고 높은 처리량을 실현한다.
  2. 응답을 중시한다.
  3. 커밋한 데이터는 지킨다.

오라클과 디스크(하드디스크)

데이터베이스는 오라클이 관리하는 디스크에 들어 있는 데이터를 의미한다.

오라클은 디스크에서 데이터를 읽어 오고 처리를 한 후 다시 디스크에 집어넣습니다. 즉 오라클이 다루는 데이터는 디스크에서 꺼내 오고 디스크로 돌아가는 것입니다. 그래서 오라클과 디스크는 떼려야 땔 수 없는 관계이다.

디스크 동작 방법

디스크를 LP판이라고 생각하고 디스크를 떠올리자

디스크는 계속 회전하고 그 위를 헤드가 움직여서 데이터를 읽거나 기록한다.

디스크는 1분에 1만 회정도 회전하고 있다. 엑추에이터는 초당 100회 정도 움직일 수 있다.

디스크의 동작

I/O 처리에 필요한 디스크의 동작

데이터를 읽기 또는 기록하기 위해서는 원하는 트랙을 찾지 않으면 안 된다. 이를 디스크 용어로 시크(Seek)라고 한다. 그 후에 원하는 정보를 읽어 낼 수 있는 위치가 회전해서 다가올 때까지 기다리고 있다. 기다리는 시간을 회전을 기다리는 시간이라고 부른다. 그리고서야 데이터를 읽고 쓴다. 디스크의 I/O는 DBMS에서 필요하지만 가능한 줄여야 하는 부분이다.

어떻게 I/O의 대기 시간을 줄일까?

시퀀셜 액세스에 관한 설명이 필요하다. 시퀀셜은 순서를 따라서라는 의미의 순차를 의미한다.

시작점부터 마지막까지 중간 부분을 빠뜨리지 않고 전부 엑세스(읽기/ 쓰기)하는 것이다.

풀 스캔(테이블의 모든 데이터를 읽어 오는 것) 할 때 메모리에 데이터가 없다면 시퀀셜 액세스가 발생한다.

테이블의 크기가 있고 시퀀셜 엑세스로 모든 데이터를 가지고 오려고 할 때 시간이 오래 걸려 인덱스라는 발생이 나오게 되었다.

책에서 무언가를 찾을 때 우리는 책의 모든 내용을 보지 않는다. 대부분 인덱스를 사용한다. 이미 알고 있듯이 인덱스에는 키워드가 순서대로 나열되어 있고 해당 페이지 번호도 쓰여있다. 데이터베이스의 인덱스도 마찬가지이다. 데이터베이스의 인덱스에는 색인할 때 사용하는 키값(SQL의 where절에 적는 조건 값)과 그 키가 존재하고 있는 위치가 기록되어있다.

인덱스 사용의 예

예를 들어 인덱스에서 해당 내용에 대한 정보를 확인 후 해당 페이지를 펼쳐 원하는 정보를 얻는다. SQL문도 마찬가지로 WHERE절에 찾고 싶은 정보를 기술하고 SELECT 뒤에 알고 싶은 항목을 적는다.

SELECT "소속회사" FROM "개인 데이터" WHERE "이름" = "현성";

이 SQL문을 인덱스를 사용해서 처리할 때는 우선 이름이 실려있는 인덱스를 조사한다. 그 결과로 어드레스(ROWID)를 얻을 수 있고, 그 어드레스로 데이터를 읽어 온다. 읽어 온 데이터에 현성이라는 모든 데이터가 있으므로 그 안에서 소속회사의 데이터를 사용자에게 반환한다.

Q&A

Q. 만약 인덱스 자체의 크기가 커지면 크기가 큰 테이블을 조회하는 것과 마찬가지로 처리하는 데 필요한 시간이 늘어날까?

A. 그런 일은 발생하지 않는다. 왜냐하면 오라클은 인덱스를 인덱스의 인덱스를 붙이는 것과 같은 형태를 여러 단계로 구성하기 때문이다.

여러 단계로 구성된 구조를 트리구조라고 부른다. 장점은 인덱스의 필요 없는 부분은 읽지 않고 끝난다는 것이다.

랜덤 인덱스

인덱스를 사용했을 때는 필요한 부분만 읽어 오면 충분하지만 필요한 부분이 디스크 위에 연속적으로 있는 경우는 거의 없습니다. 따라서 헤드를 띄엄띄엄 접근하게 됩니다. 이렇게 접근하는 방식을 랜덤 액세스라고 한다. 시퀀셜 액세스와 반대의 의미를 가진다. 랜덤 액세스를 디스크 시점에서 생각해보면 비효율적이다. 오라클 블록 크기를 4KB라고 가정하면 시크와 회전 시간을 기다리는 것에 시간을 소비하기 때문에 1초 동안 약 400KB(100회의 시크 X 1회 I/O의 크기 4KB) 밖에 읽어 오지 않는다. 실제로 데이터 전송의 효율에서 바라보면 DBMS의 I/O도 같을 수밖에 없다. 시크를 반복하기 때문에 DBMS에서 사용하는 디스크의 지표는 IOPS(초당 수행 가능한 I/O 횟수)가 중요하다고 볼 수 있다. 대부분 디스크는 IOPS가 100회에서 200회 정도이다. 따라서 한 개나 두 개의 디스크를 사용해서 데이터베이스를 만들어 버리면 부하가 집중적으로 발생했을 때 시크가 요청을 따라잡을 수 없으므로 디스크에 병목 현상이 발생하게 된다.

Tip.

Q. 접근하려는 데이터가 전체 데이터의 15% 미만일 경우에만 인덱스 액세스가 유리하다고 하는 이유는 무엇일까?

A. 시퀀셜 엑세스와 랜덤 액세스의 특징 때문이다. 테이블의 데이터가 대량이고 그중 한 개의 행을 꺼내야 한다면 당연히 인덱스 액세스가 빠르게 찾아낼 수 있다. 그에 비해 모든 데이터를 보려고 할 때 매번 인덱스를 찾은 후에 데이터를 찾아가면 오히려 속도가 느려지게 된다.

Q. 만약 데이터가 50%라면? 데이터가 25%라면?

A. 디스크에서의 랜덤 액세스는 데이터를 읽어 오는 효율성이 시퀀셜 액세스보다 떨어진다라는 특성이 중요하다. 예를 들어 테이블에 2만 건의 데이터가 저장되어 있다고 하고 그중 절반인 1만 건을 꺼낸다고 가정할 때 여기서 한 행은 4KB라고 하겠다. 이때 지금까지 사용해 왔던 디스크 성능 값을 사용해 계산해 보면 랜덤 액세스로 100초가 걸린다. 2만 건의 전부를 읽어오는 시퀀셜 액세스로 모든 것을 읽어 온다고 해도 약 4초면 끝난다. 즉 모든 데이터가 아니더라도 일정 크기 이상의 데이터를 읽는다면 디스크 특성상 시퀀셜 액세스를 사용해서 테이블을 풀 스캔 하는 것이 더 빠르다는 것을 알 수 있다.

단, 실제로 캐시에 데이터가 보관되어있는 경우도 있고 한 개의 블록에 여러 행의 데이터가 보관되어있는 경우도 있어서 1회의 I/O로 많은 데이터를 읽어오는 경우도 있다. 그래서 단순히 임계치가 15%라고 말할 수는 없다.

데이터를 보증하기 위한 디스크

오라클의 프로세스가 비정상적 종료되어도 데이터는 무사하다. DBMS는 어떠한 장애에도 견뎌야 한다. 어떻게 커밋한 데이터를 지킬 수 있을까? 데이터를 변경한 후에 커밋이라고 입력하면 오라클은 데이터를 디스크에 기록한다.

그러면 속도가 느리지 않을까? 속도를 빠르게 하기 위한 장치가 있다. DBMS들은 고속화를 위한 장치를 가지고 있어서 그 구조가 복잡한 것이다.

시퀀셜은 어떤 의미인가?

랜덤 엑세스는 db file sequential read라고 표시되고 시퀀셜 액세스는 db file scattered read라고 표시된다.

db file scattered read는 시퀀셜 하게 읽어 오는 것이므로 여러 개의 블록을 읽어온다. 오라클은 데이터 블록 단위로 메모리에 배치한다. 즉 여러 개의 블록이 연속하지 않은 곳에 놓인다. 따라서 scattered라고 표시한다. 그에 반해 db file sequential read는 단일 블록을 읽어 오므로 읽어 온 데이터는 당연히 메모리에서 연속된다. 오라클 메모리에서 연속되어 있으므로 sequential로 표시된다.

 

출처

그림으로 공부하는 오라클 구조

문제가 될시 ks12b9189@naver.com으로 메일 주시면 게시글 바로 삭제하겠습니다.

728x90

'Oracle > Oracle 구조' 카테고리의 다른 글

그림으로 공부하는 오라클 구조 2장  (0) 2022.11.07

+ Recent posts