웹은 진짜 정보가, 말 그대로 널려있는 곳 입니다.
그것을 찾아내고, 발견하는 것은 순전히 개인의 능력이지만...
한편으로 검색 기술, 정보를 수집 도구 등에 상당히 의존하게 됩니다.

예를 들어, (이럴 때 늘 비교대상이 되는) 네이버에서는.. 네이버에 데이터의 물리적 위치가 검색의 중요한 기준이 됩니다. 네이버 자체 데이터베이스에 있는 정보가 우선, 그리고 보다 정확히 검색되는 것 입니다.

보통 그외에 있는 홈페이지, 블로그, 미니홈피들은 검색엔진의 로봇, 검색 기법에 의해서 검색될수도, 되지 않을 수도 있습니다.


#1. 검색엔진...
잠깐 생각을 해봅시다.
검색엔진에서는 어떻게 글을 검색할 수 있을까요?
그것도 아주 빠른 몇초도 안걸려서 검색을 하는 방법은..?

사실 개별적인 주소(링크)만 가지고 직접 탐색을 한다면, 시간은 아주 아주 오래걸릴 것 입니다. 그중에는 현재에 존재하지 않은 주소도 있을 것이고, 느린 곳도 있을테니까요.

검색엔진이 빠르게 검색하는 방법은 미리 정보탐색로봇으로 하여금 사이트를 탐색해서, 정보를 자체 데이터베이스에 저장하고, 이후에 사용자가 검색어를 입력하면 정리된 자체의 데이터베이스만 검색하면 됩니다.

결국 우리는 새롭게 검색되는 정보가 아닌, 검색로봇이 잘 정리해놓은 정보를 다시 구경하는 것 입니다. 문제는 여기서 발생합니다. 이건 전혀 실시간 적이지 않다는 것 입니다.


간단히 생각해보아도, 검색로봇이 다녀간 뒤에 사이트가 없어지거나 정보가 변경되었다면 검색되는 정보는 무용지물이 되는 것이고.. 실제로 이런 이유로 인해서 검색엔진으로 검색할 때는 아래의 미리보기 부분에 내가 필요한 정보까지 보이는데도, 실제 클릭을 했을때는 정보가 이미 사이트가 없어진 경우가 흔히 발생합니다.

다른 문제도 있습니다. 반대로 내가 정보를 제공하는 웹사이트 관리자라고 생각해보겠습니다. 특정 정보를 웹에 올렸는데 그것이 회사의 기밀 내용을 잘못 올려졌거나, 개인의 신상정보를 올렸거나, 혹은 간단히 잘못알고 올렸다고 생각해보면... 그래서 이후에 정보를 수정했다고 하겠습니다. 그런데 그 사이에 로봇이 다녀갔다면.. 다른 사용자가 검색어를 입력했을 때.. 실제로는 웹에서 지워진 정보임에도 불구하고, 검색엔진에서는 미리보기를 통해서 약간이나마 정보를 볼 수 있습니다. 또 많은 검색엔진들이 로봇이 다녀왔을 때 저장되어 있는 사이트를 볼 수 있는 기능까지도 제공하고 있습니다.

결국 공급자와 수급자, 양쪽 모두에게 원하지 않는 결과를 만들어내기도 합니다.

 
#2. 태터툴즈, 퍼머링크
태터툴즈에서는 퍼머링크를 지원합니다. 간단히 퍼머링크라는 것은 글이 가지고 있는 고유한 주소입니다. 1번 글을 쓰고, 다음에는 2번 글을 썼다고 하고, 2번 글을 지우고, 새로운 글을 썼다면 몇 번 글이 되어야 할까요?

3번이 되어야 합니다. 링크를 했거나, 검색엔진에서는 2번 글에 대한 정보를 가지고 있을테니.. 이 주소가 중복되지 않는 방법은 새로운 주소를 만드는 것이죠. 이런 이유로 대부분의 블로그는 퍼머링크라는 것을 지원하고, 태터툴즈 역시 완벽히 지원합니다.

위 상황 말고도, 태터툴즈에서는 http://블로그 주소/제목/  http://블로그 주소/번호/의 두 가지 모두에 대한 주소를 지원하는데... 어느 한쪽을 쓴다면 보기에는 한쪽만 보이지만.. 이후 다른 것으로 바꾸어도 기존의 것으로 접근이 가능합니다. 즉, 양쪽 모두 쓸 수 있습니다.


#3. 사이트가 닫히면, 퍼머링크가 무슨 소용인가?
퍼머링크는 한 번 결정된 주소의 경우 절대로 변하지 않기 때문에, 링크를 해두면 1년이 지나도 계속 유지된다는 장점이 있습니다. 그런데 문제는 바로 이런 기술이 전혀 무용지물이 되는 상황입니다.

사이트 자체가 바뀌거나, 주인이 사이트의 주소 자체를 바꾸는 경우, 심지어 사이트를 폐쇄하는 경우.. 퍼머링크는 아무런 존재의 의미가 없어집니다.

특히 검색엔진에서 검색된 자료 역시 무용지물이 됩니다. 일반 검색엔진 뿐 아니라 이올린(eolin)이나 올블로그(allblog)를 통해서 검색을 해보면, 시간이 좀 지난 과거의 자료의 경우 검색은 되지만 링크를 따라가보면 사이트가 없어진 것들이 수두룩합니다.

결국 검색엔진, 메타사이트에서는 새로 생성되는 정보를 찾아내는 능력도 중요하지만... 죽은 정보를 걸러내는 능력도 필요해집니다. 그것이 진짜 필요한 정보를 찾을 수 있게 만드는 지름길이기 때문입니다.



#4. 로봇이 모든걸 할 수 없다면...?
로봇, 인공지능이 모든것을 할 수는 없습니다.
폐웹신고를 만들면 어떨까요?
웹사이트를 닫을 때, 그 사이트로 검색되는 모든 사이트를 DB에서 말끔하게 삭제해주는 기능. 어떤 이유에서든 사이트를 닫게 되었을 때 깔끔한 기분을 들것도 같습니다.

인증문제는 간단히 구글의 사이트맵에서 사용하는 특정 파일 생성을 이용하면 좋겠네요. 계정에 파일을 만들 수 있는 것은 사용자 자신이기 때문에http://주소/asdaw323123.htm 파일을 하나 만들게 하고는 파일이 있으면 인증을 해주는 방식입니다.

물론 검색엔진에서는 URL이나 검색 내용을 삭제해주는 기능이 존재하긴 합니다. 그런데 지원하는 방식은 다들 업체 마음입니다. 특히 자신의 웹에 올려진 정보에 대한 삭제의 결정은, 그 본래의 글을 올린 사람이 아닌 검색엔진이 하는 기분마저 들게 합니다.

최근 인기가 많은 메타사이트의 경우 일단 정보의 수집은 RSS에 의해서 한다고 하더라도, RSS의 목록에는 숫자에 제한이 때문에.. 일정 시간이 지나면 RSS로는 더 이상 글의 존재 유무를 판단할 수 없습니다. 죽은 정보가 쌓이게 되는 하나의 이유입니다.


#5. 결론
정보를 가득 쌓아서 거대한 몸짓을 만드는 것도 유용합니다. 누구라도 검색을 할 떄는 10개의 자료가 있는 곳보다는 10,000개의 자료가 있는 곳에서 검색을 하고 싶어합니다. 하지만 결국 사용하다보면 10개가 알짜배기 정보인 곳도 있고, 정보에 민감한 사용자들은 이런 차이를 알아낼 것 입니다.

한동안 구글과 야후는 자사의 검색엔진에 등록된 페이지의 수를 가지고 싸웠습니다. 자사의 DB가 더 풍부한 콘텐츠를 바탕으록 검색을 한다는 것 입니다. 하지만 저한테는 30억개의 DB와 1천만개의 DB는 그다지 차이가 없습니다.

중요한 것은 내가 찾는 정보가 진짜 나오는가 하는 문제입니다.
또 내가 생산해내는 정보의 정보주권은 내가 가지고 있어야 한다는 것 입니다.
생성 뿐 아니라, 삭제에 있어서도 그렇습니다.

클릭할 때마다 사이트가 존재하지 않는다면 짜증이 나는게 당연합니다.
살아있는 정보를 수집하는 것만큼..
죽은 정보를 걸러내야 하는 것의 중요성..
이것만으로는 아직 부족한가요?


 

"웹 + 소셜" 카테고리의 다른 글

트랙백을 보내세요

트랙백 주소 :: http://bklove.info/trackback/368

댓글을 남겨주세요

  1. 스퀘어 2006/10/06 20:13

    저도 이미 짤린 웹페이지가 상당수 있어서 검색하는데 어려움을 겪은적이 많았는데 그런 이유때문에 네이버 블로그가 발전이 되지 않았나 하는 생각도 해보네요.
    일단 폐웹신고의 경우는 좀 위험한게 제3자가 사이트에 대한 앙심을 품고 신청한다면 어떻게 막을 좋을 방법이 생각나지 않네요.
    저같은 경우는 봇이 수집한 후 일정기간 후에 똑같은 페이지에 대한 수집을 시도하고 몇번 이상 실패한다면 그 페이지를 삭제하는 방법을 취하는것도 좋은 방법이라고 생각합니다만, 우리나라 검색엔진들은 자사 컨텐츠를 중요시 여기기 때문에 네이버나 다음같은 곳에서는 기대하기 힘들것 같네요- 으냥..

    • BKLove 2006/10/07 12:21

      사이트에 특정 파일을 생성할 수 있는 사람은 사이트 운영자 뿐이지만..
      약간 위험할 수도 있겠네요.
      유예기간을 둔다든지 하는 방안으로 보충이 될 듯 합니다.

      로봇이 검색해서 사라진 사이트를 제거하는 방법은..
      지금도 사용되고 있긴한데요.
      실시간으로 추가/제거가 안된다는 점은 제껴두더라도..

      이 방법은 [사이트 운영자]가 주체가 아니라...
      [검색업체]가 주체가 되는 방법이라 제가 말씀드린 방법은 아닌 듯 합니다.

      자사 서비스니 사이트 등록은 몰라도..
      삭제만큼은 사이트 운영자가 주가 되어야 할 듯 합니다.
      꼭 닫혀진 사이트가 아니라도..
      검색을 거부할 권리(이건 robots.txt로 보완되지만요.)와
      이미 검색된 자료를 삭제할 권리도 있어야 하지 않을까..
      하는 생각이였습니다~

  2. 스퀘어 2006/10/07 12:33

    사이트 운영자가 수집된 자료를 삭제하려면 절차가 복잡하긴 하죠 ..]

  3. 루돌프 2006/10/09 16:27

    -_- 트랙백하고 링크 살리려고, 예전 도메인 계속 보유하면서 포워딩중인...
    도메인 부분을 어떻게 쓰건, 뒷부분이 같으면 링크가 그대로 연결 되드라구요.

비밀글 (Serect)