2011년 6월 13일 인터넷 보존주의자의 넋두리
나는 보존주의자이다. 다만 보통 보존주의자라고 말할 때는 역사적인 유물들의 보존 같은 걸 다루는 경우가 많은데, 나는 그런 쪽이 아니라 인터넷 상의 자료들에 더 관심을 많이 가지고 있다. 물론 역사적인 유물의 보존 또한 흥미진진한 주제이기는 하지만(《닥터 후》가 보존되는 과정을 보면 정말 경탄을 자아낼 수 밖에 없다), 아무래도 내 직업도 그렇고 인터넷 상의 자료가 가지고 있는 고유한 특징도 그렇고 해서 이 쪽에 좀 더 관심을 가지게 된 것 같다. 오늘은 이 얘기로 좀 길게 글을 써 보겠다(아 논문 써야 하는데).
보존의 중요성
물리적인 물건들과는 달리, 인터넷 상의 자료들은 무한히 복제가 가능하다. 따라서 인터넷 상의 자료가 사라지는 것은 물리적으로 그것을 담을 공간이 없어서가 아니라, 복제를 할 만큼의 관심을 받지 못 했기 때문이다. 마치 잠시 메모를 하려고 써 놓은 종이 쪽지가 사라진다 하더라도 아무도 관심을 가지지 않는 것과 마찬가지다. 하지만, 만약 한참 지나서(몇 달이나 몇 년 후에) 그 쪽지가 필요하면 어떻게 하겠는가? 물론 그 쪽지 자체로는 아무 가치가 없었다 하더라도, 만약 그 때 내가 무엇을 하고 있었는지 알고 싶다면(이게 필요한 상황은 종종 있다) 그 기간에 썼던 모든 쪽지가 존재하는 게 더 편하지 않을까? 인터넷 상에서의 자료도 마찬가지이다. 개별 자료 자체는 별 게 아닐 수 있지만 그게 모여서 생기는 가치는 어마어마하다(그리고 사실은 적절한 확률로 별난 자료들도 튀어 나온다).
인터넷 상의 자료와 물리적인 물건들이 다른 점은 마음만 먹는다면 물리적인 한계를 거의 건들지 않고도 보존이 가능하다는 것이다. 아까 전의 비유를 다시 들자면, 쪽지를 몇 달, 몇 년동안 (물리적으로!) 보존하려면 상당히 머리가 아프겠지만 만약 쪽지의 내용을 블로그나 트위터 같은 데 올리고 있었다면 훨씬 보존하는 게 간단했을 것이다. 아니, 어쩌면 보존하려는 생각을 별로 안 했어도 웨이백 머신이나 구글에서 크롤링된 내용을 보존해 놓았을 수도 있을 것이다. 이런 환경은 보존주의자로서는 정말 환영할 만한 일이 아닐 수 없다… 모든 것들이 이 방법으로 보존되는 건 아니라는 것만 뺀다면 말이지. robots.txt에 사이트 모든 내용을 못 긁어 가게 하는 사이트가 꽤 있기도 하고1, 봇한테 영 친화적이지 못 한 사이트들도 꽤 있으며, 심지어 심심할 때마다 데이터를 주기적으로 날리는 멍청한 사이트들도 존재한다2.
이 문제는 사용자가 사이트에 대한 모든 권한을 가지고 있는 경우가 보통 없다는 걸 생각하면 더더욱 심각하다. 심지어, 단순히 사용자가 자기 글이나 그림 등을 백업하고 싶어도 사이트가 그런 기능을 제공해 주지 않아서 사이트가 사라질 때 하루 아침에 뒷통수를 맞는 경우가 많다. 실제로 구글 비디오가 구글의 유튜브 인수 뒤 운영을 중단하려고 했다가, 자기 영상들이 날아갈 것을 염려한 사용자들의 강한 반발로 구글 비디오에서 유튜브로 영상을 옮기는 기능만 제공하고 읽기 전용 상태로 놔두기로 한 적이 있었다. 그나마 구글은 낫다. 옛날에 무료 웹페이지 호스팅 서비스를 제공했던 사이트들이 시대가 지나니까 소리 소문 없이 서비스를 중단하는 경우는 너무 많아서 셀 수조차 없다.
저작자의 책임
간혹, 저작물을 보는 사람은 그러길 원치 않지만 저작물을 만든 사람이 저작물을 인터넷 상에서 내리고 싶어할 때가 있다. 법적인 문제가 있을 수도 있고(애니 자막이라거나…), 모종의 어른의 사정이 있을 수도 있지만(이를테면, 옛날 판타지 소설은 온라인으로 연재되다가 출판되면 출판 분량까지 일정 기간 이후 삭제되곤 했었다) 대부분의 경우 그냥 변덕이다.
지극히 개인적인 관점이지만, 나는 변덕 때문에 저작물을 삭제하는 사람들을 그다지 좋게 보지 않는다. 저작물의 생산을 중단하는 것은 당연히 자기 자유이고, 자기가 만들었던 그 저작물들을 흑역사 취급하여 잊어버리려는 것도 자기 자유인데, 이미 배포된 저작물을 다른 사람들에게까지 잊어 달라고 하는 것은 도대체 무슨 고집인지 모르겠다. 게다가 아무리 그 고집이 세다고 하더라도, 누군가가 그 저작물을 (의도적이든 의도적이지 않든) 저장해 놓았을 가능성이 더 높으니 어차피 성공하지 못 할 일이다. 정말로 피치 못 할 사정—초상권 같은 법적인 문제라면 이야기가 달라진다—이 아닌 이상 그런 고집이 개인에게나 사회에게나 도움을 줄 수 있다고는 생각하지 않는다. 만약 흑역사가 문제라면, 오히려 흑역사도 역사라는 걸 인정해야 하는 게 아닌지.
아는 사람은 알지만, 몇 년 전에 나는 관련된 사건에 연루(?)된 적이 있다. 당시 영상 번역에 탁월한 실력을 자랑하던 모 씨(이쯤까지 말하면 다 알겠지)가 개인 사정으로 블로그를 완전히 날려 버린 적이 있었는데, 어쩌다 보니 내가 그 사람 블로그에 있던 영상을 거의 다 백업해 놓고 있어서 복구가 되어 버린 적이 있다. 그 모 씨는 나한테 무슨 감정을 가지고 있는진 모르겠지만—아니, 개인 사정을 생각해 보면 사실 아예 신경을 안 써야 할 것 같지만—내가 지금 알고 있는 정보에 기반하여 그 사람한테 가지고 있는 생각은 하나 뿐이다. 무책임하다. (내가 알기로는) 개인 신상도 밝히지 않았으니 사라지는 것만으로도 새 출발을 하기에 충분한데, 왜 굳이 블로그를 삭제해야 했을지 의문이 든다. 물론 그게 외부의 압박 때문이었다면 내가 그를 비판할 이유는 없긴 하겠지만, 아무튼 여러 의미로 아쉬운 사건이었다.
의도하고 저작물을 삭제하는 경우가 변덕 때문이라면, 의도하지 않고 저작물을 삭제하는 경우는 무신경해서(…)인 경우가 많다. 흔히 볼 수 있는 경우로, 사이트 구조를 바꾸면서 기존 사이트의 내용을 삭제하거나 주소가 바뀌어 버리는 경우가 있는데, 이건 사실 모르고 그러는 경우도 많고 서비스의 특성상 어쩔 수 없는 경우도 많아서 내가 대놓고 깔 수는 없다. 어떤 사이트든 몇 년 이상 이런 식으로 운영하려면 상당한 인내심이 필요하니까3 모든 사람이 이러라고 강요할 수는 없지만, 그래도 가능하다면 기존 저작물은 유지하고, 주소가 피치 못한 사정으로 바뀐다면 바뀐 주소를 원래 위치에 알려 주거나 하는 노력을 조금만이라도 해 주면 정말로 큰 도움이 될 것이다. 은근히 일본 사이트 중에 이렇게 하는 곳이 꽤 있던 것 같다(실제로 내가 종종 가던 한 사이트는 메인 페이지 주소가 바뀌자 바뀐 주소로 대신 즐겨찾기 해 달라고 공지가 뜨던 적이 있었다).
서비스의 책임
저작자의 책임이 보통 “요청” 수준에서 그친다면(이건 뭐 어쩔 수 없는 노릇이다), 서비스의 자료 보존 책임은 요청보다는 “강제”에 더 가깝다. 왜냐하면 자료 보존이라는 문제는 단순히 역사를 보존한다는 측면 뿐만 아니라 서비스를 사용하는 사용자들의 권리에도 연관이 되어 있기 때문이다.
당연히, 자료 보존 측면에서 가장 좋은 정책은 자료를 최대한 오랜 기간동안 원 상태 그대로 보존하는 것이다. 위에서 예를 들었던 구글 비디오가 (한 번 욕을 먹은 뒤에) 이 정책으로 돌아 가고 있는데, 구글 말고 다른 곳에 이런 걸 요구하는 건 좀 가혹한 일이긴 하다. 차선책으로 고려할 수 있는 것은, 자료를 다른 곳으로 이전하거나 개별적으로 보존하려는 요청을 적극적으로 지원하고, 그러지 못 한 경우에 대해서만 보존을 하거나 인터넷 아카이브 같이 인터넷 상의 자료 보존을 전문적으로 하는 곳에 기탁을 하는 등의 방법을 생각해 볼 수 있다. 설마 셋 다 안 되는 경우는 없을 것이다(그리고 가능하다면 첫번째 정책은 서비스가 망하기 전부터 꾸준히 하는 것이 더 바람직할 것이다).
문제는, 충분히 많은 사람들이 욕을 바가지로 해 대지 않는 이상 서비스 업체가 이런 정책을 제대로 취하는 경우는 거의 없다는 점이다. 보통은 다른 서비스로 사람들이 빠지는 것을 염려해서 그러는 것인데, 솔직히 말하면 어차피 서비스가 망할 조짐이 보이면 사람들은 어떤 방법으로든 자기 자신의 자료를 백업해서 빠져 나갈 것이다(이글루스가 SK커뮤니케이션즈에 인수될 때 이런 적이 있었다). 어차피 서비스가 망할 때 사람들이 빠져 나갈 거라면, 서비스를 안 망하게 하는 게 사람들을 못 빠져나가게 하는 것보다 우선되어야 하는 것은 당연한 것이다. 종종 여기에 대한 다른 해결책으로 플랫폼을 만드는 것이 제시되곤 하는데, 어이쿠. 제대로 된 플랫폼을 만들 수 있는 회사는 정해져 있고 그렇지 못 한 플랫폼에서는 사람들이 빠져 나갈 것인데 제대로 된 플랫폼을 만들 자신은 있는 걸까?
서비스가 이런 정책을 제대로 취하지 못 할 때 사람들이 취하는 차선책(또는, 최후의 수단)은 보통 정해져 있다: 서비스가 망하기 전에 필요한 자료를 어떤 방법으로든 긁어 가는 것이다. 이런 상황은 하도 많이 일어나서 예제로만 보여 줘도 충분할 것이다:
- 엠엔캐스트가 한 번 망할 뻔 했을 때 사람들은 엠엔캐스트에 있는 대부분의 영상들을 다른 곳에 백업을 해 뒀다. 다들 알지만, 엠엔캐스트는 몇 달 뒤 정말로 망해 버렸다.
- 야후가 유명한 웹페이지 호스팅 서비스인 Geocities를 닫겠다고 선언하자, 서비스가 문을 닫기 며칠 전에 수많은 사람들이 웹페이지를 미친듯이 크롤링해서 상당한 부분을 백업해 버렸다. 인터넷 아카이브, Reocities를 비롯한 여러 프로젝트에서 이 작업을 수행했으며, 아카이브팀에서 공개한 Geocities 전체 백업본은 압축 전 크기가 900기가바이트를 상회했다(…). 이럴 바에는 그냥 야후가 전체 데이터를 인터넷 아카이브에 기부하는 게 백만배쯤 더 나았을 것이다. (사실 야후는 이전에도 비슷한 방법으로 무책임하게 서비스를 닫은 적이 있어서 보존주의자들의 욕을 얻어 먹고 있다.)
- 4chan 등의 영미권 인터넷 문화와 깊은 관련이 있는 Encyclopedia Dramatica가 하루 아침에 문을 닫아 버리자 사람들이 강력하게 항의하면서 복원을 진행하고 있다. 물론 운영자 측도 무진장 욕을 얻어 먹고 있다. (운영자 측은 이걸 사이트 리뉴얼이라고 주장하고 있지만, 컨텐츠가 사라지면 리뉴얼이 무슨 소용이 있는가?)
- URL 줄이는 사이트들(URL shortener)은 최근 들어 자료 보존에 꾸준한 문제를 유발하고 있다. 만약 어떤 사이트가 운영을 중단하면, 그 사이트를 써서 URL을 줄였던 모든 사용자가 아무 이유도 없이 영향을 받게 되는 것이다. (안 일어날 것 같아 보이지만
tr.im같은 비교적 큰 사이트가 사라진 적이 있다.) 이 이유 때문에 이런 사이트들이 가지고 있는 URL 데이터베이스를 모조리 백업하는 프로젝트 또한 존재한다.
반면 보존 정책으로 봤을 때 매우 모범적인 사이트들도 존재하는데, 내가 아는 한 가장 최상의 보존 정책을 취하는 곳은 단연 위키미디어 프로젝트들(위키백과, 위키낱말사전, 위키미디어 공용 등)이다. 만인의 백과사전을 표방하는 사이트이니만큼 당연한 결과이겠으나, 아무튼 위키미디어 프로젝트가 쓰는 소프트웨어인 미디어위키에는 처음부터 백업 및 복원 기능이 내장되어 있으며 전체 사이트 덤프를 받을 수 있는 페이지까지 존재한다. 위키미디어 프로젝트의 규모를 생각하면 대규모 사이트 중에서는 거의 독보적인 존재라 아니 할 수 없는데, 실제로 영문 위키백과의 비교적 최신(2011년 1월) 덤프 크기는 압축을 풀면 7테라바이트(!)4에 육박한다. (당연히 토런트로 받아야 한다.)
당장 할 수 있는 일
만약 인터넷 상의 자료의 보존에 관심이 있다면, 우선 인터넷 아카이브나 아카이브팀을 찾아 볼 것을 권한다. 인터넷 아카이브는 아무래도 전 세계 웹사이트의 백업을 보관해 두고 있는 웨이백 머신으로 잘 알려져 있겠지만 그 이외에도 상당한 양의 다른 자료들을 보존해 두고 있다. 아카이브팀은 인터넷 아카이브보다는 좀 더 개별 서비스에 집중하는 편으로, 특히 자료 보존에 대한 아무 고려 없이 사라지는 웹사이트들을 자원 봉사자들의 도움으로 보존하는 데 탁월한 능력을 발휘한다.
만약 얼마 뒤면 사라질 웹 페이지를 보존하고 싶다면 WebCite를 쓰는 것도 한 방법이다. 웨이백 머신은 보통 주기적인 크롤링에 의존하기 때문에 크롤링이 안 된 페이지는 보존할 수 없으며 6개월 안에 크롤링된 페이지를 볼 수 없는 반면, WebCite는 사람들이 요청한 페이지만을 보존 처리해 주며 6개월 안에 보존된 페이지도 (보존이 되었다면) 볼 수 있다.5 따라서 이 페이지가 어느 시점에 정확히 어떤 내용이었는지 보존하고 싶을 때 매우 유용하며, 인터넷 상에서의 논쟁을 보존한다거나(…) 하는 용도로도 쓸 수 있다.
당연히 모든 사람이 보존주의자가 될 수는 없다. 나같이 자료의 중요성을 계속 느끼는 사람이라면 자연스럽게 보존주의자가 될 가능성이 높지만, 모든 사람이 나같은 배경을 가지고 태어난 게 아니니까 그걸 기대하는 건 아니다. 다만 보존의 중요성을 설파하고 행동에 나서는 사람이 누군가는 있어야 할 뿐이다. 그리고 그 행동은 생각보다 어려운 것이 아니다.
-
이건 아주 멍청한 짓인데,
robots.txt를 충실하게 준수하는 봇들만 막히고 이 파일을 전혀 존중하지 않는 나쁜 봇들에게는 전혀 영향을 주지 못 한다. 사실은robots.txt자체가 정확히 이 이유 때문에 전혀 쓸모가 없다(애초에 과도기적 표준이기도 한데). 봇을 막고 싶으면 필히 서버 단에서 별도의 설정을 해야 한다. ↩ -
용량 때문에 이렇게 하는 곳도 존재하긴 하지만(이를테면 2ch가 있는데, 이 쪽은 별도의 백업이 존재하니까…), 나는 그것도 아닌데 그냥 새 마음 새 뜻으로(?) 날리는 곳을 본 적이 있다. 개인적으로는 도대체 뭔 생각으로 그런 건지 모르겠다. ↩
-
메아리는 2004년 이후 만들어진 모든 컨텐츠를 별다른 이유가 없다면 계속 호스팅하고 있으며, 추적 가능한 한 주소 또한 유지하고 있다. 옛날 블로그 같은 것들은 꽤 흑역사지만(…) 굳이 숨겨야 할 필요성은 느끼지 못 하고 있다. ↩
-
최신 덤프는 6월자이긴 한데, 내가 이걸 다 받아서 파일 크기를 확인할 수는 없는 노릇이라(…) 메일링 리스트에 나온 숫자를 참고했다. 증가 추세로 볼 때 6월자 덤프는 분명히 7테라바이트가 넘었을 것이다. ↩
-
본래 WebCite는 웨이백 머신과 같은 목적으로 만들어진 프로젝트였는데, 웨이백 머신이 유명해지면서 웨이백 머신이 해결하지 못 하는 문제를 해결하려는 쪽으로 프로젝트 목적이 바뀌었다. 어차피 WebCite에서 보존된 페이지도 (웨이백 머신과 마찬가지로) 인터넷 아카이브 쪽으로 들어가기 때문에 서로를 보완하는 역할이라고 보는 게 맞겠다. ↩
