내가 쓰고 싶은 멀티미디어 검색 - 입력창에 이미지를 넣게 해줘!


EnswerMe

엔서미(EnswerMe)는 새로 떠오르고 있는 국산 동영상 검색 엔진입니다.
현재 클로즈 베타 상태에 들어가 있고  최근 스마트플레이스 주관의 Demo Day 행사에서 시연과 전략 브리핑을 해서 뉴스도 탔는데 그 내용은 마루날님의 블로그에서 자세히 볼 수 있습니다.
메인 페이지에서 이메일 주소로 테스트 계정 신청하면 하루이틀 안에 금방 계정을 만들 수 있습니다.

처음 이 동영상 검색의 소식과 데모를 보고 흥미있었던 것은 Enswer가 검색 대상 웹 공유 동영상들의 멀티미디어 데이터 부분을 직접 분석하여 '같은 동영상', '같은 컨텐츠의 부분 동영상',
'비슷한 동영상' 들을 엔진 내에서 추려내고 그 결과를 합리적인 순서로 묶어 결과 페이지로 제시한다는 소개때문입니다. 소개만 그랬던 것이 아니고 실제로도 꽤 흥미있게 동작하고 있습니다.


멀티미디어의 내용을 까서 검색하는 시대

이미지, 사운드, 동영상같은 멀티미디어
바이너리 는 사람 귀로 듣고 눈으로 보면 뭐가 뭐랑 비슷하거나 같은 동영상인지 금방 알 수 있지만 검색 엔진 프로그램 관점에서는 그냥 거대한 바이너리 청크일 뿐입니다. 그래서 현재까지의 텍스트 키워드 중심의 검색 엔진 서비스에서는 그 멀티미디어를 포함한 (링크한/임베드한-근본적으로는 그게 그거인) 웹 문서에서 멀티미디어의 메타 데이터 텍스트나 웹 문서 제목과 본문 텍스트에서 '키워드'를 추출하고 색인하여 해당 멀티미디어 바이너리의 검색 색인으로 삼고 있습니다.

네이버 비디오 검색-"노바디"
구글 이미지 검색-"노바디"

와 같은 것이지요. 자주 보던 겁니다.
각 검색 결과 아이템을 누르면 제시된 아이템(멀티미디어)을 포함하고 있는 해당 웹 문서쪽으로 리다이렉트하는 것이 현재의 멀티미디어 검색 관행입니다. 리다이렉트한 페이지에 프레임을 표시하나 안 하나 같은 것은 그냥 선택사항이구요.
보시다시피 같은 이미지/동영상도 많고, 키워드 제목은 비슷하나 의도에 맞지 않은 이미지/동영상도 무질서하게 포함되어 있으며 문서 랭킹에 의한 정렬이 된 결과이긴 하겠지만 그다지 일목요연해보이지는 않습니다.

오디오/비디오 신호처리 기술을 동원, 웹 공유 동영상의 바이너리 스트림을 직접 분석하여 각 프레임의 유사도를 평가하고 멀티미디어의 내용을 직접 인식한다는 Enswer의 검색엔진은 현재의 텍스트 키워드에 의존한 동영상 결과 분석에 비해 이런 장점을 가지고 있다고 선전합니다.
  • 중복된 동영상(동일한 동영상 소스를 여기저기 퍼나른 사용자 생성 페이지들을 포함)을 인식하여 클러스터링(묶기)한다.
  • '동일한 컨텐츠'를 담은 서로 다른 동영상을 클러스터링하면서 컨텐트의 전,후,포함관계를 인식할 수 있으므로 컨텐트의 시간 순서대로 검색 결과들을 나열할 수 있다.
  • 색인된 키워드는 같으나 실 내용은 다른 동영상은 다른 클러스터로 분류하여 일목요연한 결과를 만든다.
  • 동영상의 '퍼나르기'가 일반적인 지금 원본 동영상의 rank를 높여 우선 표시되게 하는데에 미디어 내용의 평가부분이 정확도를 높인다.
  • 저작권 동영상의 필터링 기반으로 동작하여 추후 수익모델을 구축할 수 있다.

아, 그렇군요. 프로그램(검색엔진)이 멀티미디어의 내용 자체를 이해하니 이런 장점이 있군요. 참 좋은 기술 시대예요.


그런데, 사용자 입력은?

그런데, 이 Enswer에 제가 기대했던 것 중 정말 큰 하나가 누락되어 아쉽습니다.
멀티미디어를 검색하는 사용자가 목표로하는 멀티미디어 결과에 도달하기 위해 '텍스트 키워드를 입력하는' 관행에서 벗어나는 검색 UX가 그 기대였습니다.

"노바디" 라는 텍스트 문자열과 '원더걸스 노바디 뮤직비디오 동영상'은 사용자의 뇌속에서는 의미론으로 연결되어있지만, 디지털 데이터로는 완전히 다른 것입니다. 이미지도 사운드도 마찬가지입니다.

가끔 이런 생각이 들 때가 있습니다. "지금 보고있는 이 동영상/이미지/사운드가 포함되어 있는 다른 웹페이지들을 찾아보고 싶다." "이 짤방이 제일 처음 등장한 웹페이지가 어디인지 알고 싶다."

예를 들면 이런 것입니다.

매우 자주 사용되는 유명한 짤방입니다. 유머러스하고 짓궂은 블로그 포스트들에 블로거들이 많이 사용합니다.

이게 매우 재밌게 느껴저서 이 짤방을 사용한 다른 웹문서들 (블로그 포스트들) 도 찾아보고 이 짤방을 처음 만들어 올린 사람의 페이지도 보고 싶습니다. 이왕이면 쭈욱 하나의 목록으로 만들어 보여주면 좋겠습니다.

자, 나는 이미지 검색 엔진에 무엇을 입력해야 합니까?  ........  저기..... 이미지에 대사가 들어가 있으니 그거로라도 찾아볼까요?

구글 이미지 검색 - "틀렸어 이제 꿈이고 희망이고 없어"
네이버 이미지 검색 - "틀렸어 이제 꿈이고 희망이고 없어"

뭐, 그럴 줄이야 알았지만...


틀렸어 이제 꿈이고 희망이고 없어!!! ㅠㅠ


뭐, 그렇군요. 그런겁니다. 구글의 검색 결과 페이지에는 그림들이 한참 많이 있으니 1,2,3,4,... 페이지 번호 하나씩 누르다보면 뒤에 어딘가에서 찾아질지도 모르겠네요.


저는 이럴 때 검색 엔진이 멀티미디어 자체를 입력 key로 쓸 수 있게 해주면 좋겠습니다.
이런 검색 인터페이스를 '이미지로 찾기' 옵션과 함께 제공해주는 것이지요.


                      검색할 이미지 :



음, 맨날 보던 파일 업로드 창 아니겠습니까.

  • 키워드 텍스트 입력 --> [검색엔진] --> 키워드와 같은 색인어로 분류된 이미지 포함 문서 리스트

와 함께,

  • 이미지 입력 --> [검색엔진] --> 같은 이미지를 포함한 문서 리스트                                         
  • 이미지 입력 --> [검색엔진] --> 같은 이미지의 부분을 포함한 문서 리스트
  • 이미지 입력 --> [검색엔진] --> 비슷한 이미지(변형, 패러디) 를 포함한 문서 리스트

이런 걸 추가해주는 것이지요.
또, 웹 상에 존재하는 이미지 자체의 '링크'를 입력받는 방법도 있습니다. 이미지를 포함한 문서의 URL을 입력받는 방법도 있겠습니다. 어느 쪽이든 사용자의 입력으로부터 얻어지는 '멀티미디어 바이너리'를 시작점으로 그것을 key factor로 저장된 문서 검색 결과를 얻게 됩니다.

화제가 되고 있는 사건사고 이미지에 대해 그 이미지를 포함한 원본 뉴스 페이지나 블로거들의 왈가왈부 평가 포스트를 보고 싶을 때, 재미를 느낀 동영상을 포함하며 논평을 늘어놓은 웹페이지들을 찾아보고 싶을 때, 즐겁게 들은 음악이나 사운드 파일을 처음 공개해 걸어놓은 페이지를 찾고 싶을 때... 등등. 저 위에 꿈도 희망도 없는 짤방이야 그렇다치고, 생각보다 많은 사용 사례가 나올 수 있을 것 같습니다.


가능한 얘기인가, 동영상도 가능한가

동영상도 가능합니까? 약간 간접적이지만 현재에도 가능해보입니다.

  • 사용자의 PC에 다운로드되어 있는 동영상 파일이라면 이미지와 마찬가지로 파일 업로드한다.
  • 웹에 있는 동영상이라면 대부분의 flash 기반 웹 동영상은 동영상 페이지 URL과 퍼가기(embed)용 script를 제공하므로 그걸 복사하여 입력한다.
  • 현대적인 브라우저들은 페이지에 보여지고 있는 멀티미디어를 툴바나 외부 입력창으로 마우스 Drag할 수 있는 UI를 가지고 있으므로, 그것을 이용하는 브라우저 플러그인을 제공한다
  • 마우스 오른쪽 버튼 메뉴에 ".....로 이미지/동영상 검색" 같은 메뉴를 만들어 확장할 수도 있다.

이렇게 입력받은 'Key 동영상'은 예를 들면 Enswer같은 회사가 갖고 있는 멀티미디어 분석 기술을 이용하여 유니크한 바이너리 지문 (Finger Print)을 얻어내고, 이미 자체 색인 결과에 잘 저장되어 있을 '동영상별 Finger-Print'를 고속 검색하여 비디오와 원본 문서를 동일한 순서대로 정리해 결과 페이지로 제시하면 되는 것입니다.

Enswer의 경우, 뒷 부분들은 다 개발해 놓은 상태라고 보입니다. 그러니까 동일/유사 동영상 클러스터링 결과를 보여주고 있는 것이겠지요?
다만 해결해야 할 것은 지금 막 입력된 Key 멀티미디어 파일을 분석해서 색인과 비교할 Key 데이터로 변경하는 것은 입력된 텍스트를 처리하는 것보다 훨씬 많은 시간이 소요된다는 점입니다. 사용자를 너무 기다리게 해서는 안 되지요. 이걸 고속화하는 것은 분산 처리와 동시성 처리를 통해  최적화해나갈 수 있을텐데요, 뭐 Demo Day 내용 보니까 Enswer에는 분산 동시 처리 전문가도 있으시다니...

오우, 엄청 쉬운 것처럼 말하고 있네요. 저보고 하라면 하지도 못하면서!

하지만, 어렵고 세심한 기술이긴 해도 Enswer의 기반 기술을 '비디오/오디오 신호처리를 이용한 구별'이라고 말하듯이 동영상과 함께 이미지와 사운드 부분에서도 해당 요소 기술은 꾸준히 발전해왔습니다.


"음악지문? 이거 뭐야?"  [via 한겨레]
"image Fingerprint" 검색 결과 - google


기억하기에도 한참 전에 이미 전화기에 '들려오고 있는 음악을 입력하면' 곡 정보를 찾아 알려주는 이동통신 서비스도 있었구요(그런데 이 좋은 기술은 서비스도 접고 어디로 소리소문 없이 사라졌는지 모르겠네요), 모바일에서의 불편을 해소하기 위해 이미지 인식 기술을 정보 검색에 이용하는 사례도 이 블로그에서 알려드린 적이 있지요. 특히 '이미지'라면 왠만한 크기의 이미지라도 그 Key finger print 생성 과정은 순식간일 것이므로 바로 적용할 일도 멀지 않을 것 같습니다.

구글도 이런 준비를 하고 있습니다.

"VisualRank" 라 이름붙인 이미지 유사성 분석 기반 검색 알고리즘에 대해 올해 5월에 연구 중인 컨셉을 발표했지요. (링크를 방문하면 약간정도 학술적인 PDF 파일도 다운받아 볼 수 있습니다.)

요소 기술이 많이 개발되어있고 새 서비스 UX에 대한 기대가 많은 요즘같은 분위기라면, 비교적 적은 투자로 서비스의 질을 획기적으로 바꿀 수 있는 "멀티미디어 직접 입력"에 대해서 생각해볼만 할 것 같습니다.

Enswer로 말하자면, 구글이 아직 손대지 않은(내부적으로 손 안 댔을리가 없지만 아무튼..)  웹 비디오 데이터 분석과 Finger-print 생성 방식을 이미 타이밍 좋게 확보한 김에, 검색 사용자의 경험 측면에 대해서도 더 연구해 주면 좋겠습니다. 런칭한 서비스가 안착하도록 빨리 쐐기를 박아야지요.

텍스트로 키워드를 입력하는 방식은 필수적인 요소이긴 하지만 그것만 가지고는 너무 지루합니다. :-)


Roess

by roess | 2008/09/29 21:51 | 트랙백(5) | 덧글(33)

◀ 이전 페이지 다음 페이지 ▶