iPhone을 이용한 모바일 비주얼 검색 (Visual search) - ViPR / evolution robotics


무선인터넷 인프라와 서비스 관련 직업을 몇 년간 해오고 있음에도 모바일 검색에 '키워드'를 입력해 넣다가 짜증이 용솟음치곤 하는 일이 종종 있습니다.
익숙하지 않은 키배열도 그렇고 WAP 브라우저가 제공하는 인풋 박스의 동작도 그렇지요. 한글과 함께 영어, 숫자 등을 번갈아 검색하려면 더 합니다.

WAP이 아니면 괜찮은 편인가요?
그렇지도 않은 것 같습니다. 스마트폰이나 PDA류의 모바일 단말이 흔히 제공하는 software 키패드를 이용해 뭔가 '문자열'을 찍어넣는 것 자체도 평균적인 사용자들에게 널리 받아들여지기는 참 어려워 보입니다. 예를 들어 저의 부모님에게 이런 feature들을 잘 설명하고 일상적으로 즐기시도록 만들어라 한다면 자신 없어집니다. 나이 어린 제 조카에게도 마찬가지이네요.

무선인터넷이 활성화되지 않았다는 평가들이 많은데, 모바일 단말 고유의 '방식'이 충분히 성숙하지 않았다는 것도 그 이유 중의 하나일 것 같습니다.

그래서 무선인터넷 영역에는 사용자의 검색 key factor 입력을 더 직관적으로 구성하기 위한 시도들이 늘 있었습니다.
  • RFID를 이용한 검색 입력
  • QCode, 2차원 바코드 등 이미지 identifier 를 이용한 검색 입력
  • WINC 와 같이 서비스 End-point를 코드화 하는 것 (이것은 검색 대상의 key factor를 입력하는 것과는 좀 다르지만 아무튼)
검색 대상의 직접적인 디지털 이미지를 이용한 검색 방법을 광범위하게 지칭하는 visual search도 그와 마찬가지로 keyword 문자열을 사용자가 찍어넣는 과정을 직관적으로 생략하는 시도 중의 하나입니다.

위 동영상은 직접적인 무선인터넷 서비스나 단말 사업자는 아니지만, 그 Back-end로 동작하는 이미지 인식과 분석 기술을 제공하는 Evolution robotics, Inc. 의 ViPR 엔진을 이용한 데모 서비스 시연입니다.
검색 대상의 이미지를 폰 카메라로 찍고 그걸 이메일로 보내면 정보 조회 결과를 (다른 정보 source로의 링크들을 포함하여) 다시 이메일로 전달받는 다는 것이군요. 이메일을 중간에 매개체로 사용하는 것이야 변경될 수도 있는 방법이겠지만, 아이폰의 부드러운 UI 전환, 풀브라우징, 동영상 재생 기능 등과 어울려 데모 상태에서도 그럭저럭 매력적으로 보이는군요

ViPR 엔진은 일본 Bandai 와의 협력으로 KDDI가 차후 출시할 모든 단말에 위와 같은 Visual Search feature를 탑재하겠다고 사업 발표를 하기도 했습니다.





by roess | 2008/04/26 20:27 | 트랙백(1) | 덧글(0)

Deep web까지 자동 수집 해주겠다고 나선 구글봇(Googlebot)

HTML form 을 이용한 웹페이지 수집
Crawling through HTML forms  [via Google Webmaster Central Blog, 2008.04.11]


구글이 크롤러(Crawler)를 개선하여 이른바 "Deep Web" 이나 "Invisible Web"로 알려진 HTML form 입력 이후의 동적 생성 페이지들까지 자동화된 인덱싱(indexing)의 대상으로 삼는 실험을 수 개월 전부터 진행하고 있다는군요.

보통 <form action=...> 태그를 사용하여 입력을 받는 요소들이 포함된 페이지는 브라우저 상에서 사용자 (그러니까 진짜 '사람' 사용자;;)의 직접적인 오퍼레이션이 있기를 기대하며 제작되는 것이고, 이 페이지들에 뭔가 자동화된 프로세스가 값을 채워넣고 동적으로 페이지 생성을 요청해댄다면 그건 주로 SpamBot 들의 행태이기가 십상이지요.

구글은 text box, select box, radio button 등의 HTML 표준 input element 에 해당 html 문서에서 얻어진 '적절한 범위의' 입력을 자동 생성하고 그에 의해 생성되는 동적인 페이지들을 인덱싱하고 있다며, 그러나 "피해 없게 잘 할 수 있다!" 고 주장하고 있습니다.

그 근거로는
  • 한정된 수의 유용한 사이트에 대해서만 이런 crawler 기능을 적용한다  (근데 그 '유용한' 사이트는 누가 결정을?)
  • robot.txt 와 "nofollow", "noindex" directive 준수한다  (근데 robot.txt 와 noindex 등도 제대로 설정 안 했지만 이래저래 직간접적인 사용자 정보를 처리하고 있는 좀 덜떨어진-웹에는 지천으로 널린-사이트들은?)
  • GET 요청되는 form만 crawl에 포함한다 (근데 바로 위의 좀 덜떨어진 사이트가 form 파라미터 전달을 GET으로 하는 미묘한 구성을 하고 있는 경우라면?)
  • login, userid 등을 처리하는 password input이 있는 경우 처리 제외 
등등.

좋습니다. 착하게 굴겠다니 좋은거지요.
이런 '좀 더 후벼파주는' crawler가 순효과를 가져오는 몇몇 케이스들은 바로 상상 가능하군요. 예를 들면 체크옵션 박스나 라디오 버튼 선택으로 상품 카테고리를 제한하여 페이지를 보여주는 기능이 있는 쇼핑몰 사이트들은 각각의 동적인 개별 페이지들이 검색엔진에 인덱싱 되어 좀 더 노출의 기회를 얻는다든지..

그런데, 세상과 마찬가지로 이 웹세상도 이렇게 착하고 질서에 맞게만 구성되어 있는 것은 아니지 않습니까.
구글봇의 의도와 달리 특정 사이트에서의 페이지 구조 구현에 따라 공연한 SpamBot같은 역할을 하게 될 수도 있고  말이지요.

Googlebot, WTF are you doing?
벌써 이런 반응도 있네요.


저도 웹서버 이용한 개발하면서 초기 개발 스케치로 그저 입력 대충 할 수 있는 form 구성해놓고 입력값의 서버측 검증 대충대충 때우면서 쓱쓱 pilot 만들어 올리고 하는 경우도 있는데 말이지요. (그리고 고백하자면 이렇게 쓱쓱 개발하다 잘 디자인된 이미지들 대충 엮어서 눈에만 그럴싸하게 보이게 한 채로 '상용 가동'씩이나 한 경우도 솔직히 있습니다. robot.txt 나 적당한 page directive 고민들도 없이...)
꽤 많은 '상용으로 배포되고 있는' 페이지들이 사실 이런 비슷한 실정에 놓여 있다는 것도 우리는 알고 있는데요.

SpamBot과 해킹의 '밥'이 되는 이런 널널한 구현들은 앞으로 자칫 검색엔진에 노출되어서는 안되는 output까지 홀라당 긁혀버리는 참사를 맞을 수도 있겠습니다.
더 정신차리고 웹에 임할 수밖에 없는 시대가 더 빠르게 오는군요.




by roess | 2008/04/14 20:39 | 트랙백 | 덧글(0)

◀ 이전 페이지 다음 페이지 ▶