이러쿵저러쿵


 

 

사실 저도 모르고 있었는데, 참 흥미롭네요.^^

작은 아이디어 인데, 이를 생각해내고, 실제 서비스에 접목시켜 실현해내는 모습이 존경스럽습니다.

 

 

reCAPTCHA 에서 고서를 번역하는 알고리즘은 간단히 다음과 같습니다.

 

1. 회원 가입 시, 사람인지 기계인지를 분간해 내기 위해 두 단어의 이미지 텍스트(고서를 스캔한 텍스트 1개와 임의로 만든 텍스트 1개)를 화면에 제시합니다.

 

* 참고로 OCR을 통해 고서를 컴퓨터에서 인식할 수 있는 텍스트로 변환 작업을 수행하는데, 현재까지의 기술로는 약 30% 정도는 정확하게 번역되지 않는다고 합니다. 그래서 이렇게 제대로 변환되지 않는 고서의 텍스트가 reCAPTCHA에 사용됩니다.

 

첫번째(고서를 텍스트화 하기 위한) 텍스트는 컴퓨터가 모르는 텍스트이며, 두번째 텍스트는 컴퓨터가 답을 알고 있는 텍스트입니다.

 

2. 사용자가 두 단어를 모두 입력하면 컴퓨터는 두번째 텍스트가 자신이 가지고 있는 답과 동일한지 비교합니다. 동일하다면 첫번째 텍스트도 사용자가 올바르게 입력했을 것이라 판단합니다. 즉, 사용자가 제대로 입력했다고 판단한 첫번째 텍스트를 고서 번역에 사용합니다.

 

(두번째 텍스트가 동일하지 않다면 다시 새로운 텍스트를 제시하거나 회원 가입을 거절 시킵니다.)

 

3. 물론 첫번째 텍스트는 잘못 입력하고, 두번째 텍스트만 제대로 입력한 경우가 있을 수 있습니다. 이러한 문제를 방지하기 위해 컴퓨터는 동일한 고서의 텍스트를 여러 사람에게 제시하고 가장 많은 사용자가 번역한 텍스트를 채택하여 이를 고서 번역(책을 컴퓨터가 인식할 수 있는 텍스트로 변환)에 사용합니다.

 

---------------------------------------------------------------------------------------------

 

1차 출처 : EBS

2차 출처 : 클리앙 (http://www.clien.net/cs2/bbs/board.php?bo_table=park&wr_id=33166783)

 

---------------------------------------------------------------------------------------------

 

TED : 캡차 시스템 소개 영상 : http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration?language=ko#t-8700

 

CAPTCHA 서비스 개발자(루이스 폰 안)가 TED에서 직접 reCAPTCHA 를 소개하는 영상입니다. 재미있으니, 한 번 보시는 것을 추천합니다.^^

 

참고로 TED 영상에서는 루이스 폰 안이 차기 프로젝트로 외국어 번역을 통한 학습 사이트 Duolingo(듀오링고) 라는 서비스도 소개합니다.

 

Duolingo (듀오 링고) : https://www.duolingo.com (한국어 서비스도 지원하며, 웹서비스 뿐만 아니라, 앱 서비스도 있습니다.)

 

듀오 링고 서비스도 RECAPCHA 서비스와 유사한 면이 있습니다. 개개인의 외국어 번역 학습의 결과물을 가지고, 이를 취합 및 분석하여 가장 최적의 올바른 번역을 해내기 위한 프로젝트의 일환입니다.

 

 

저작자 표시 비영리 변경 금지
신고


Comment +2

티스토리 툴바