ComputerProgrammingwithGNUSmalltalk:1.4

From 흡혈양파의 번역工房
Jump to navigation Jump to search

파일 형식

파일 형식file format은 컴퓨터의 메모리에 어떻게 파일을 유지하는가와 관련있는 내용입니다. 파일들은 바이너리와 텍스트 형식, 두 가지로 구분됩니다. 프로그래밍 연습을 하는 동안에는 파일들을 넓게 사용할 터인데, 실제로 모든 프로그램이 파일로 구성되어 있기 때문에 우리가 컴퓨터를 사용하는 매 시간마다, 파일을 사용하고 있는 셈입니다. 따라서 파일에 관하여 약간만 알면 쉽게 알 수 있을 것입니다.


바이너리 파일

바이너리 파일binary file은 몇몇 특별한 프로그램에서 특별한 파일 형식으로 파일을 읽기 위해 사용합니다. 컴퓨터 메모리에서 0과 1로 표현되며, 그 내용은 지정한 내용에 따라 생성합니다. .jpeg, .pdf, .doc, .exe 확장자들은 바이너리 파일의 예이며, 이러한 파일들을 읽기 위해서는 이미지 뷰어나, PDF 리더와 같은 프로그램이 필요합니다.


텍스트 파일들

인간은 문자로만 이뤄진 파일을 널리 사용하기에 간단한 텍스트 파일을 만들었습니다. 알파벳 문자와 숫자 및 몇몇 특수제어 문자를 포함한 텍스트 파일은 모두 캐릭터 인코딩character encoding이라고 부르는 특수 인코딩 시스템에 따라 표시합니다. 텍스트 파일에 포함할 수 있는 문자는 캐릭터 인코딩이 사용할 수 있는 범위로 제한되어 있습니다. 이렇게 제한된 문자의 종류를 표로 나타낸 것을 캐릭터 셋character set이라고 부릅니다. 모든 문자는 캐릭터 셋의 숫자로 표현합니다. 텍스트 에디터text editor라 불리는 프로그램으로 텍스트 파일을 읽고 쓸 수 있습니다.


일반적으로 많이 사용하는 캐릭터 인코딩은 ASCII (American Standard Code for Information Interchange, 정보 교환을 위한 북미 표준 코드) 이며, 문장에 사용할 수 있는 최소한의 문자들로, 모든 문자는 7 비트로 표현되는 간단한 인코딩 방식입니다. ASCII 캐릭터 인코딩을 지원하는 텍스트 에디터는 ASCII로 인코딩 된 어떠한 텍스트 파일이라도 읽을 수 있습니다. 이 인코딩 방식은 캐릭터 인코딩 사양 중 가장 단순하여서 디지털 장비 간의 광범위한 호환성을 제공하고 있습니다. ASCII 캐릭터 셋은 부록 B에서 찾아 보실 수 있습니다.


ASCII는 7 비트의 제한을 가지고 있기 때문에 7 비트로 표현할 수 있는 128 종류의 문자 만을 사용할 수 있습니다. 세계는 크고, 수백 개의 알파벳과 수천 개의 다른 문자들이 존재하고 있습니다. 어떤 언어 체계에서는 128개보다 더 많은 문자를 가질 수도 있기 때문에, 7 비트 인코딩으로 표현한다는 것은 불가능한 일입니다. 이런 이유로 다양한 캐릭터 셋과 인코딩이 존재하는 것입니다. 예를 들어, 유니코드 문자 셋을 사용하고 있는 UTF-8 문자 인코딩은 문자를 표현하는 데에 1~4 바이트를 사용할 수 있습니다. 유니코드 문자 집합은 약 십만 개의 문자들로 이루어져 있습니다.


GNU 스몰토크는 ASCII나 UTF-8로 텍스트 파일을 읽을 수 있기 때문에, 여러분의 편집기가 ASCII나 UTF-8을 지원하는지 여부가 문제가 되지 않습니다.