728x90
운영체제
33. 데이터 무결성과 보호
33.1 디스크 오류 모델
- 디스크는 완전하지 않으며 오류가 발생할 수 있다.
- 현대의 디스크들은 정상적으로 동작하는 것처럼 보이지만 블럭들을 읽는데 실패하는 경우가 있다. 우리가 살펴볼 만한 것은 두 가지 종류의 단일 - 블럭 오류가 있다. 각각은 숨어있는 섹터 에러(Latent Sector error, LSE)와 블럭손상(block corruption)이다.
- LSE는 디스크 섹터가 어떤 이유로든 손상되었을 때 발생한다. 예를들어, 디스크 헤드가 표면에 어떤 이유로 닿았다면(head crash, 일반적인 상황에서는 일어나면 안된다) 표면을 망가뜨릴것이고 비트들을 읽을 수 없게 만든다. 강한 방사선도 역시 비트를 반전시켜서 내용을 부정확하게 만들 수 있다. 다행스러운 것은 디스크내의 에러 정정 코드(error correcting codes, ECC)를 사용하여 디스크 상에 있는 블럭의 비트가 괜찮은지 판단하고 어떤 경우에는 고치기도 한다. 어떤 비트의 상태가 좋지 않은데 그 부분의 에러를 고칠 충분한 정보를 갖고있지 않으면 그때는 해당 비트를 읽는 요청을 받으면 디스크는 에러를 리턴한다.
- 두 번째는 디스크가 손상 여부를 인식할 수 없게 내용이 손상(corrupt)된 경우다. 이 경우 해당 블럭의 내용은 읽혀진다. 버그가 있는 디스크 펌웨어 때문에 잘못된 위치에 쓰기를 했거나 전송 버스 상에서 오류로 인해서 호스트에서 디스크로 전송되는 도중에 블럭이 손상될 수도 있다. 손상된 데이터가 디스크에 저장이된다. 이러한 종류의 오류들은 조용한 오류(slient fault)이기 때문에 더 심각하다. 오류가 있는 데이터를 리턴함에도 불구하고, 디스크는 문제를 전혀 알리지 않는다.
- 이런 현대적 관점의 디스크 오류를 부분-실패(fail-partial) 디스크 오류 모델이라고 부른다.
33.2 숨어있는 섹터 에러(Latent Sector Error)
- LSE는 쉽게 발견할 수 있기 때문에 해결이 어렵지 않다. 잘 알려진중복 정보를 이용한 복구 기법들이 존재하며, 이들 중복 기법들을 통해서 손쉽게 복구할 수가 있다.
33.3 손상검출 : 체크섬
- 데이터 무결성을 유지하기 위해서 사용하는 주요한 기술은 체크섬(checksum)이라고 불린다. 체크섬은 간단하게 데이터 청크를 입력으로 하여 함수를 계산하는데, 이 결과는 데이터 내용에 대한 작은 요약 정보이다. 체크섬의 목적은 데이터의 손상이나 변경 여부를 시스템이 판단할 수 있도록 하는 것이다. 체크섬을 데이터와 함께 저장하여 저장된 데이터로부터 계산한 현재의 체크섬이 저장장치에 기록되어 있는 체크섬 값과 같은지 확인한다.
널리 사용되는 체크섬 함수
- 체크섬을 계산하기 위한 많은 함수들이 존재하며 각각의 강도(데이터 무결성을 보호하는 정도)와 연산속도가 상이하다.
- 간단한 체크섬 함수로 XOR 연산이 있다. 체크섬을 구하고자 하는 각 데이터 블럭의 청크를 XOR 연산하여 최종적으로 전체 블럭을 대표하는 XOR 값을 생성한다.
- XOR 방식은 합리적이지만 제한이 있다. 체크섬을 계산하는 각 열에서 두 개의 값이 변하면 체크섬은 손상을 검출 할 수 없다.
- 다른 기본적인 체크섬 함수는 덧셈이다. 이 방법의 장점은 빠르다는 것이다. 체크섬을 계산하려면 각 데이터의 청크에 대해서 2의 보수 덧셈을 하고 만약 오버플로우가 발생하면 무시한다. 이 기법은 데이터의 많은 부분이 변경되었어도 변경된 경우 이를 발견할 수 있기는 하지만, 데이터가 쉬프트 된 경우에는 발견 못 할수도 있다.
- 좀 더 복잡한 알고리즘은 Fletcher checksum이다. 두 개의 체크바이트 계산이 필요한 비교적 간단한 방법이다. 플렛처 체크섬은 CRC와 견줄 정도로 강력하다고 알려져 있으며 모든 한 비트, 두 비트 에러, 그리고 많은 경우의 동시다발적 에러들을 검출할 수 있다.
- 또 하나의 흔히 사용되는 체크섬은 Cyclic Redundancy Check(CRC)이다. 이진 나머지 연산은 상당히 효율적으로 처리를 할 수 있기 때문에 CRC는 네트워크 분야에서도 인기가 있다.
33.4 체크섬의 활용
- 블럭을 읽을 때 사용자는 디스크에서 체크섬을 읽는다. 이 체크섬을 저장된 체크섬(stored checksum)이라고 부른다. 사용자는 그 후에 해당 블럭으로 부터 체크섬 값을 계산해내고 이를 계산된 체크섬(computed checksum)이라고 부른다. 이 시점에서 사용자는 저장된 체크섬과 계산된 체크섬을 비교한다. 만약 둘이 동일하다면, 데이터는 손상이 없는 것이고 사용자에게 안전하게 리턴될 수 있다.
33.5 새로운 문제 : 잘못된 위치에 기록
- 첫 번째 오류는 잘못된 위치에 기록(misdirected write)이라고 부른다. 디스크와 RAID 컨트롤러에서 발생하는 현상으로 디스크에 데이터를 제대로 기록했지만 잘못된 위치에 기록하는 현상이다.
- 해법으로 각 체크섬에 추가적인 정보를 더해준다. 이 경우 물리적 식별자(physical identifier 또는 물리적 ID)를 추가하는 것만으로 큰 도움이 된다.
33.6 마지막 문제 : 기록 작업의 손실
- 기록 작업의 손실(lost write)는 상위 계층에게는 쓰기가 완료되었다고 알리지만 실제로는 저장되지 않은 경우를 나타낸다. 그렇기 때문에 디스크의 블럭은 새로운 내용으로 갱신되지 않고 예전의 블럭 내용이 남겨져 있는 상황이 된다.
- 도움이 되는 해법으로 쓰기 검증(write verify) 또는 쓰기 후 읽기(read-after-write)라는 것을 수행한다. 쓰기를 수행한 후 즉시 그 값을 다시 읽는것을 통해 시스템은 데이터가 디스크 표면에 잘 도착했다는 것을 알 수 있다. 하지만 이 방법은 그렇지않아도 느린 쓰기 동작을 완료하기 위해 I/O의 수를 두 배로 늘린다.
33.7 Scrubbling
- 디스크 다시 읽기(disk scrubbling) : 주기적으로 시스템의 모든 블럭들을 읽어서 체크섬이 여전히 유효한지를 검사하여 디스크 시스템은 특정 데이터의 모든 사본이 모두 손상되는 확률을 줄인다.
33.8 체크섬 오버헤드
- 공간 오버헤드는 두 가지 형태로 나뉜다. 하나는 디스크 자체의 오버헤드로서 디스크상에 체크섬을 저장하기 위한 공간이 필요하며 그에 따라 사용자가 저장할 수 있는 공간이 줄어든다.
- 두 번째 종류의 공간 오버헤드는 시스템 메모리로 인한 것이다. 데이터를 접근할 때 메모리에 데이터와 체크섬을 읽어들일 수 있는 공간이 필요하다.
- 공간 오버헤드는 그렇게 크지 않은 반면에 체크섬으로 인한 시간 오버헤드는 뚜렷하게 나타난다. 체크섬을 사용하는 많은 시스템에서 CPU 오버헤드를 줄이기 위해 사용하는 한 가지 방법은 어차피 데이터를 복사하는 것은 불가피하기 때문에 체크섬 연산과 데이터 복사를 하나의 연속적인 작업으로 처리하는 것이다. 복사하기와 체크섬 연산을 한번에 처리하는 것은 상당히 효율적이다.
- CPU오버헤드 외에도 체크섬 기법들에 따라 추가적인 I/O를 유발할 수 있다.
PintOS
간단한 정리
Virtual Memory Layout
- 핀토스의 가상 메모리는 2개의 영역으로 나눈다.
- 유저 가상 메모리
- 커널 가상 메모리
- 하나의 프로세스는 하나의 유저 가상 메모리를 가지고, 커널 가상 메모리는 전역적이다.
- 커널 가상 메모리의 경우 머떠한 유저 프로세스 또는 커널 스레드가 CPU 제어권을 획득해 running인지에 관계없이 항상 같은 방식으로 매핑된다. 모든 유저 프로세스의 커널 가상 메모리가 동일하다.
Page
- 핀토스에서는 4KB의 길이를 가지는 가상 메모리의 연속된 영역이다. 가상 메모리를 일정한 크기로 나눈 블럭이다.
- 64비트 가상 주소에서 하위 12비트는 page offset이고, 상위 비트들은 페이지 테이블의 인덱스로 사용된다.
Frame
- 물리 메모리상의 연속적인 공간을 의미한다. 페이지와 동일하게 ,프레임은 페이지 사이여야 하고 페이지 크기에 정렬되어 있어야 한다.
Supplemental Page Table
- Pintos는 pml4라는 페이지 테이블을 가지고 있다.
- 이외 추가로, page fault와 다른 리소스 처리를 하기위해 spt가 필요하다.
- page fault시 spt에서 오류가 발생한 page를 조회해서 데이터가 있어야할 위치를 확인한다.
- process가 종료될 때 kernel이 spt를 참조하여 어떤 resource를 free할 것인지를 결정한다.
- spt는 각각의 페이지에 대해서 데이터가 존재하는 곳이나, 포인터정보, page와 관련된 추가 정보를 저장하는 자료구조이다.
- 우리팀의 경우 hash_table을 이용해서 구현해주었다.
Lazy Loading
- lazy loading은 메모리 로딩을 필요한 시점까지 미루는 기법이다.
- 메모리 효율성을 위해 기법을 사용한다. lazy loading을 사용하면 프로세스가 필요한 페이지를 필요한 시점에 로드할 수 있고, 이렇게 함으로써 불필요한 메모리 사용을 줄일 수 있다.
728x90
'Study > TIL(Today I Learned)' 카테고리의 다른 글
24.04.02 PintOS (1) | 2024.04.03 |
---|---|
24.04.01 운영체제, PintOS, 백준 (0) | 2024.04.02 |
24.03.30 운영체제, PintOS (0) | 2024.03.31 |
24.03.29 운영체제, PintOS (0) | 2024.03.30 |
24.03.28 운영체제, PintOS, 백준 (2) | 2024.03.29 |