Deep web까지 자동 수집 해주겠다고 나선 구글봇(Googlebot)

HTML form 을 이용한 웹페이지 수집
Crawling through HTML forms  [via Google Webmaster Central Blog, 2008.04.11]


구글이 크롤러(Crawler)를 개선하여 이른바 "Deep Web" 이나 "Invisible Web"로 알려진 HTML form 입력 이후의 동적 생성 페이지들까지 자동화된 인덱싱(indexing)의 대상으로 삼는 실험을 수 개월 전부터 진행하고 있다는군요.

보통 <form action=...> 태그를 사용하여 입력을 받는 요소들이 포함된 페이지는 브라우저 상에서 사용자 (그러니까 진짜 '사람' 사용자;;)의 직접적인 오퍼레이션이 있기를 기대하며 제작되는 것이고, 이 페이지들에 뭔가 자동화된 프로세스가 값을 채워넣고 동적으로 페이지 생성을 요청해댄다면 그건 주로 SpamBot 들의 행태이기가 십상이지요.

구글은 text box, select box, radio button 등의 HTML 표준 input element 에 해당 html 문서에서 얻어진 '적절한 범위의' 입력을 자동 생성하고 그에 의해 생성되는 동적인 페이지들을 인덱싱하고 있다며, 그러나 "피해 없게 잘 할 수 있다!" 고 주장하고 있습니다.

그 근거로는
  • 한정된 수의 유용한 사이트에 대해서만 이런 crawler 기능을 적용한다  (근데 그 '유용한' 사이트는 누가 결정을?)
  • robot.txt 와 "nofollow", "noindex" directive 준수한다  (근데 robot.txt 와 noindex 등도 제대로 설정 안 했지만 이래저래 직간접적인 사용자 정보를 처리하고 있는 좀 덜떨어진-웹에는 지천으로 널린-사이트들은?)
  • GET 요청되는 form만 crawl에 포함한다 (근데 바로 위의 좀 덜떨어진 사이트가 form 파라미터 전달을 GET으로 하는 미묘한 구성을 하고 있는 경우라면?)
  • login, userid 등을 처리하는 password input이 있는 경우 처리 제외 
등등.

좋습니다. 착하게 굴겠다니 좋은거지요.
이런 '좀 더 후벼파주는' crawler가 순효과를 가져오는 몇몇 케이스들은 바로 상상 가능하군요. 예를 들면 체크옵션 박스나 라디오 버튼 선택으로 상품 카테고리를 제한하여 페이지를 보여주는 기능이 있는 쇼핑몰 사이트들은 각각의 동적인 개별 페이지들이 검색엔진에 인덱싱 되어 좀 더 노출의 기회를 얻는다든지..

그런데, 세상과 마찬가지로 이 웹세상도 이렇게 착하고 질서에 맞게만 구성되어 있는 것은 아니지 않습니까.
구글봇의 의도와 달리 특정 사이트에서의 페이지 구조 구현에 따라 공연한 SpamBot같은 역할을 하게 될 수도 있고  말이지요.

Googlebot, WTF are you doing?
벌써 이런 반응도 있네요.


저도 웹서버 이용한 개발하면서 초기 개발 스케치로 그저 입력 대충 할 수 있는 form 구성해놓고 입력값의 서버측 검증 대충대충 때우면서 쓱쓱 pilot 만들어 올리고 하는 경우도 있는데 말이지요. (그리고 고백하자면 이렇게 쓱쓱 개발하다 잘 디자인된 이미지들 대충 엮어서 눈에만 그럴싸하게 보이게 한 채로 '상용 가동'씩이나 한 경우도 솔직히 있습니다. robot.txt 나 적당한 page directive 고민들도 없이...)
꽤 많은 '상용으로 배포되고 있는' 페이지들이 사실 이런 비슷한 실정에 놓여 있다는 것도 우리는 알고 있는데요.

SpamBot과 해킹의 '밥'이 되는 이런 널널한 구현들은 앞으로 자칫 검색엔진에 노출되어서는 안되는 output까지 홀라당 긁혀버리는 참사를 맞을 수도 있겠습니다.
더 정신차리고 웹에 임할 수밖에 없는 시대가 더 빠르게 오는군요.




by roess | 2008/04/14 20:39 | 트랙백 | 덧글(0)

트랙백 주소 : http://roess.egloos.com/tb/4291576
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]

:         :

:

비공개 덧글

◀ 이전 페이지 다음 페이지 ▶