2015년 12월 29일 화요일

[인공지능]인공지능 2015 - 개인비서, 인간관계 컨설팅, 법률자문

인공지능에 관한 기사가 하루가 멀다하고 쏟아져 나오다 보니 트렌드를 놓치지 않고 따라잡기조차 어려운 지경입니다. 오늘은 각 분야별로 상용화된 인공지능을 소개한 기사를 소개해 드립니다.

기사 내용중 가장 인상적인 것은 인공지능에 관해 연구하고 있는 스타트업들이 걷게 되는 두 가지 경로에 대한 글쓴이의 의견입니다. 글쓴이는 이들 스타트업에게는 두가지 경로가 있는데, 그 첫 번째는 성공하는 길로 구글, 페이스북, 아마존 등 거대 기업에 인수되(어 대박을 터뜨리)는 것이고, 두 번째는 실패하는 길로 똑 같은 기업들에 가능성을 인정받아 인수되는 것이라고 쓰고 있습니다(인수는 됐지만 성공하지 못하는 경우). 이러나 저러나 인공지능에 관해 연구하면 거대 기업에 인수될 가능성이 높다는 얘기입니다. 그만큼 현재 인공지능이 뜨거운 감자라는 얘기겠죠.

이 기사 이외에도 2015년에 인공지능에 투자된 돈이 지난 20년간 인공지능에 투자된 모든 돈을 합친 것 보다 많았다는 기사와 같이 바로 지금, 그리고 2016년이 인공지능이 크게 도약할 한 해라는 전망을 쏟아내는 기사들을 끊임없이 접하게 됩니다. 한편으로는 기술의 발전이 가져올 윤리적 문제나 제도에 대한 걱정을 하면서도 과연 어디까지 기술이 발전하게 될지에 대한 기대감이 공존합니다. 저 역시도 2015년을 마무리 하는 시점에서 인공지능의 폭발적 발전을 목격하게 될 2016년이 기다려 집니다.

그럼 지금부터는 기사에 소개된 내용에 제가 조금 덧붙여서 상용화된 인공지능에 대해 소개해 드리겠습니다.

음성 인식 및 개인비서 시스템

- Siri : 

애플의 iOS, watchOS, tvOS의 일부인 개인 비서 인공지능 시스템. 최근에는 인식률이 정말 많이 높아졌습니다. 한글 시리를 사용해 부신 분이라면 모두 공감하시리라 생각되네요.


- Cortana

마이크로소프트의 개인 비서 인공지능 시스템. 윈도우 모바일용으로 개발 됐으나 현재는 안드로이와 애플의 일부 모델에서도 작동. 데스크탑과 엑스박스에서도 작동



- Google Now

안드로이드폰과 아이폰의 구글 검색에서 사용가능하며 다른 기기에 탑재된 구글 크롬 브라우저에서도 작동 가능한 개인 비서 인공지능 시스템. 저도 최근에는 컴퓨터에서 작업 시에 키보드 검색 대신 음성 검색을 사용하는 회수가 늘고 있습니다.    




- Watson

자연언어처리(Natural Language Processing)와 머신 러닝 시스템을 통해 대량의 데이터를 학습하고 이를 통해 지식과 통찰력을 갖는 기술 플랫폼. 제퍼디쇼 우승으로 유명.



- Echo

물건을 보고나면 스피커나 마이크가 아닌가 착각할 수도 있지만 사실은 아마존에서 만든 진짜 스마트한 인공지능 전자제품(?) 입니다. 인공지능이 탑재되어 있어 대화를 통해 음악을 재생하거나 오디오북을 읽거나 날씨나 교통정보에 대해 묻거나 필립스의 Hue 또는 삼성의 SmartThings 등을 제어할 수 있다고 합니다. 저도 한번 구매해 보고 싶네요(ㅠㅠ)




- Gluru

온라인에서 문서, 캘린더, 이메일 또는 다른 데이터를 정리할 수 있고 인공지능이 새로운 통찰이나 실행가능한 정보를 알려준다고 합니다. 스케쥴은 물론이고 미팅에 관련된 모든 파일을 정리해서 메일을 보내주거나, 각각의 메일이나 파일에 포함되어 있는 이름, 링크 등을 모두 추출해서 정리한다고 합니다. 또 사용자의 사용방식을 학습해서 좀더 사용자에 맞는 결과물을 전달한다고 하네요. 이제 우리 모두는 매출 1백억 회사의 사장님이 아니더라도 모두 개인비서를 갖게 된 것 같습니다.





- X.ai

스케쥴을 잡아주는 인공지능 개인비서. 홈페이지에 가보면 사용후기가 나와 있는데요, 사용자들이 1분도 안걸리는 시간에 인공지능이 약속을 잡아줬다는 등 아주 만족해하는 댓글들을 볼 수 있습니다.




인간관계 컨설팅 인공지능

Crystal : 

제가 그 동안 보아왔던 인공지능 중에 가장 색다른 인공지능입니다. 인간관계에 대한 컨설팅은 아주 전문적인 영역이기도 하고 감정적인 영역이기도 하고 너무나도 인간적인 영역이라고 믿어왔던 분야인데요. 이렇게 심리적이면서도 인간의 감정적 소통에 영향을 미치는 인공지능이 시도되고 있다는 자체가 신기하면서도 동시에 충격적이기도 합니다.

크리스탈이라는 이름의 이 인공지능은 다른 사람들과 소통할 수 있는 최적의 방법을 컨설팅해준다고 합니다. 홈페이지에 소개된 내용이 사실이라면 정말 놀랍습니다. 사람들은 저마다 각각의 성격을 갖고 있는데요. 이러한 각각의 개성 때문에 공감하는데 실패하기도 하고 그래서 충돌하기도 합니다. 그런데 이 인공지능은 사람들 간의 소통을 제3자 입장에서 관찰하고 이들 간의 충돌을 줄일 수 있는 해결책을 제시한다고 합니다.


법률 자문 인공지능

- Legal Robot : 

법률 문서를 자동으로 리뷰해주는 인공지능. 개인 뿐만 아니라 기업 역시 비즈니스를 위한 목적으로 사용할 수 있고 현재는 베타서비스 중인 것으로 나오네요.



- Ross

한번은 소개해야겠다고 생각하고 있었는데 이제 소개하게 되네요. IBM Watson 을 기반으로 하는 법률 자문 인공지능 입니다. 로스의 홈페이지에는 로스는 "인공지능 변호사"라고 소개되어 있습니다. 비용과 시간이 많이 드는 법률 서비스를 이제 인공지능 변호사를 통해 좀 더 친근하게 이용하게 될지도 모르겠습니다. 단순히 키워드 검색을 할 수 있는 정도가 아니라 "파산한 회사가 사업을 계속 영위할 수 있나?"와 같은 실제 일상 대화 수준의 질문이 가능하며 검색 결과 역시 키워드 검색결과를 나열하는 것이 아니라 정말 질문과 연관성 높은 "대답"을 제공한다고 합니다. 뿐만아니라 사건에 긍정 또는 부정적 효과를 미칠 수 있는 법률 조항에 변화가 생기는가에 대해서도 추적한다고 하네요.



기사 원문 보러가기



2015년 12월 24일 목요일

[비즈니스]인공지능이 탑재된 구글 메시지앱의 성공 가능성

월스트리트저널에 따르면 구글이 인공지능이 탑재된 메시지 앱의 출시를 준비중이라고 합니다. 언제 출시할지에 대해서는 정확하게 알려지지 않았으나 이와 관련해서 지난 1년동안 준비해온 것으로 알려져 있습니다.


매시지앱에 인공지능이 탑재되면 사람은 친구나 가족 등 사람과 메시지를 교환하는 것 뿐만아니라 인공지능과 채팅을 할 수 있다고 합니다. 구글 검색창에서 원하는 정보를 얻듯이 구글 메시지앱에서 "챗봇(chat bot)"과 대화를 이어나갈 수 있게 되는 것이죠. 길을 물어 보거나 내일 날씨가 어떤지 물어는 등 일상적으로 구글 검색창을 이용해서 얻을 수 있는 모든 정보를 메시지앱에서 챗봇과의 대화를 통해서 알 수 있게 되는 것입니다. (현재 구글 나우를 통해 스마트폰과 대화할 수 있는 범위에 대해서는 여기를 클릭하세요.)

구글이 이런 서비스를 준비하고 있는 것은 메시지앱시장에서 주도권을 잃고 싶지 않은 의지가 반영된 것입니다. 메시지앱 시장은 이미 위챗, 라인, 카카오톡 등 강자들이 즐비하고 여기에 페이스북이 메시지앱에 대한 강화 의지를 보이면서 경쟁이 점점 더 치열해 지고 있습니다. 게다가 페이스북 역시 페이스북 메신저에 인공지능 "M" 을 탑재하려고 준비중이기 때문에 구글도 이에 대적할 수 있는 서비스를 선보이려고 하는 것 같습니다. 그러나 이마저도 쉽지는 않아 보입니다.

페이스북의 인공지능 M 서비스는 온라인과 오프라인을 연결하는 기능을 탑재할 것으로 알려져 있는데요. 예를 들면 꽃배달 서비스와 같은 것입니다. 그러나 구글의 경우 오프라인과의 연계 부분은 포함되지 않는 것으로 알려져 있습니다. 따라서 그동안 구글의 성적이 좋지 않았던 메시지앱 시장에서 이번에 만회 할 수 있을지는 여전히 의문입니다. 단, 날씨는 어때? 또는 지금 나오는 음악이 뭐지? 와 같은 아주 명료한 사실에 대한 대화뿐만 아니라 삶의 의미가 뭐지? 지능이란 뭐지?와 같은 좀 더 추상적인 내용에 대해서도, 아직 많이 부족하지만, 대화를 할 수 있는 것으로 알려져 있습니다.

구글은 이처럼 구글 검색기능을 메시지앱에도 도입하려고 하는 것으로 보이는데요. 메시지앱은 정보의 검색기능보다는 사람들과의 의사소통이 더 중요한 본연의 기능이라는 점에서 과연 얼마나 많은 소비자들을 끌어들일 수 있을지 귀추가 주목됩니다. 구글의 인공지능기능 탑재가 메시지앱의 성공적인 전략 포인트가 될 수 있을까요?

관련기사 보기 1
관련기사 보기 2
관련기사 보기 3

2015년 12월 22일 화요일

[컴퓨터 예술]연주자의 시선을 따라 연주하는 제3의 로봇 팔

지난 번 소개드렸던 제이슨 브레튼(Jason Bretan)이 속한 조지아텍 음악기술연구실(Georgia Tech Center for Music Technology)에 올라온 영상입니다.

지난 번 소개드렸던 로봇 팔은 사람의 연주를 들으며 그 연주 내용에 따라 즉흥적인 연주를 할 수 있도록 고안된 장치였는데요. 이번에 소개된 영상에서는 연주자의 시선이 머무는 곳에 있는 북을 연주하도록 고안된 로봇 팔을 보실 수 있습니다.

인간의 신체는 두 개의 팔을 갖도록 디자인 되어 있기 때문에 악기의 연주법 또한 그에 기초해 발전되어 왔는데요. 이제 인간 신체의 확장에 따른 새로운 연주법이 연구되어야 할 시점인 것 같습니다.





2015년 12월 19일 토요일

[잡생각]페이스북, 구글, MIT가 주도하는 인공지능 개발

최근 인공지능에 관심이 생기면서 관련 뉴스를 많이 검색합니다. 뉴스 검색을 하다보면 대부분 외국 기업이나 외국 학교의 이름이 많이 보이는데요. 오늘 아침에도 관련 뉴스들을 검색하다가 갑자기 궁금해졌습니다. 과연 어떤 기업, 어떤 사람들이 인공지능 관련 이슈를 주도하고 있는지 말입니다. 그래서 아주 간단한 실험을 해봤습니다. '회사명+artificial intelligence' 라는 키워드와 '학교명 + artificial intelligence'라는 키워드로 구글 뉴스 검색을 해보았습니다. 아래는 각 키워드로 검색된 뉴스의 수에 대한 그래프입니다(2015년 12월 19일 오전 10시 기준입니다).


표를 보시면 아시겠지만 페이스북과 구글이 압도적으로 우세합니다. 3위를 기록한 애플에 비해서 페이스북과 구글은 10배 수준입니다. 4위를 기록한 삼성에 비하면 30배 수준입니다. 앞으로 인공지능이 테크기업들에게 핵심 동력이 될 것은 분명해 보이는데요, 이 뉴스 검색결과를 놓고 본다면 테크 업계에서의 페이스북과 구글의 장악력은 더욱 공고해 질 것으로 생각되네요. 

그런데 구글보다 페이스북 관련 뉴스가 더 많이 검색된 것은 저에게는 의외였습니다. 그 동안 제가 체감한 바로는 구글이 더 많았다고 느꼈으니까요. 구글은 텐서플로, 딥드림, 검색, 메일, 구글포토 등 인공지능과 관련한 넓은 영역에서 핵심 키워드를 갖고 있는 기업이었습니다. 페이스북은 개인비서 M 이나 하드웨어 플랫폼 공개 등의 이슈가 있었지만 구글만큼 다양하거나 자주 보진 못했는데 의외입니다. 

애플이 아마존 보다 많이 나온 것도 아주 의외였습니다. 인공지능 관련 기사에서 애플의 이름은 생각보다 많이 접하지 못했습니다. 그에 비해 아마존의 경우 테슬라와 함께 1조원 규모의 인공지능 펀드를 투자했다는 뉴스 등에서 자주 접해서 그런지 인공지능과 굉장히 밀접한 연관이 있는 기업으로 느껴졌는데, 실제 검색된 뉴스의 수에서는 애플의 1/3 수준입니다. 애플은 siri 서비스를 갖고 있는 것이 큰 몫을 차지한 것 같습니다. 

삼성이 17만 건이 넘는 뉴스가 검색되면서 4위를 기록한 것도 상당히 뜻 밖입니다. 오히려 바이두나 알리바바 같은 기업의 뉴스는 종종 접했는데 'Samsung'이 제목에 포함되는 뉴스는 거의 접하지 못했습니다. 아마도 삼성이 구글이나 애플의 경쟁기업이다 보니 이들의 뉴스에서 같이 언급되었던 것이 아닐까 추측해 봅니다.

왓슨으로 유명한 IBM이 6만여 건으로 하위권에 기록된 것도 상당히 뜻밖입니다. IBM의 왓슨은 제퍼디 쇼에서 사람 챔피언을 이긴 것 등으로 이미 몇 년 전 부터 뉴스가 많았었는데 말입니다. 

토요타의 뉴스가 4만 건에도 못미치게 검색된 것도 너무나 뜻 밖입니다. 최근에 토요타는 2020년까지 자율주행차 출시를 목표로 1조원 규모의 펀드를 인공지능에 투자한다는 뉴스가 나오고 있습니다. 자동차 회사 중에는 테슬라를 제외하고는 인공지능 관련 헤드라인에 거의 유일하게 등장하는 기업인 것 같습니다. 



학교명과 인공지능으로 검색한 결과는 대체로 체감하는 것과 일치했습니다. MIT, 캠브리지, 스탠포드, 조지아텍 등의 학교명을 가장 많이 봤다고 느꼈는데 대체로 일치했습니다. 체감과 일치하지 않는 결과는 하버드 입니다. 개발진의 출신학교나 현재 개발중인 연구실 명에 하버드는 거의 등장하지 않았는데요. 제가 많이 접하진 못했지만 하버드 비즈니스 리뷰 등에서 인공지능과 관련한 많은 이슈를 많이 다룬 것은 아닐까 추측해 봅니다. 

우리나라 대학교인 서울대학교(SNU)와 KAIST로도 검색을 해봤는데요. 서울대학교는 9천여 건으로 비교적 많은 뉴스가 검색되었습니다. 세계적인 공과대학으로 유명한 UC버클리나 칼텍 보다도 많은 수의 뉴스가 검색되었습니다. KAIST 또한 칼텍과 비슷한 수준으로 약 3천여 건의 뉴스가 검색되었습니다. UC버클리나 칼텍 모두 세계 수준의 공과대학을 보유한 것으로 알려져 있는데요, 이 결과만으로 보면  인공지능 분야에 있어서는 서울대학교나 카이스트가 준비를 잘 하고 있는 것으로 생각되네요. 결과를 보시면 아시겠지만 세계 대학평가 등에서 좋은 성적을 받는 학교들일수록 인공지능에 대한 연구도 활발합니다. 앞으로도 이들 대학의 명성은 더욱 공고해 질 것으로 생각됩니다. 

그 밖에도 제가 관심이 있는 예술과 인공지능으로도 검색해 보았습니다만 검색결과가 그다지 신뢰성이 높아보이지 않아서 표로 보여드리는 것은 하지 않기로 했습니다. 음악(music), 예술(art), 그림(draw, paint)등의 단어와 인공지능으로 검색을 해 보았는데 음악이 75만 건, 예술이 15만 건 정도 검색되었습니다. 그 동안 저의 체감으로는 음악과 청각 관련 뉴스보다는 미술이나 시각관련 뉴스가 5~10배 정도 많았습니다만 결과는 조금 다르게 나왔네요. 

그런 줄은 알고 있었습니다만 구글과 페이스북의 위세가 정말 대단하다는 걸 새삼스레 느끼게 된 아침입니다. 


2015년 12월 17일 목요일

[컴퓨터 예술]가사를 쓰는 인공지능 딥비트(DeepBeat)

베토벤처럼 작곡을 하고, 락밴드 처럼 연주를 하고, 미술 평론가가 되어 작품의 창의력을 평가하고. 추상화가처럼 그림을 그리고. 이미 인공지능은 이 모든 일을 해냈습니다. 그렇다면 글 쓰는 일은 어떨까요? 오늘 소개해드릴 인공지능은 가사를 쓰는 인공지능입니다.

글을 쓴다는 것은 사람에게도 굉장히 어려운 일입니다. 짧은 분량으로 하루의 기억을 정리하는 일기 정도의 글이라면 모를까 소설과 같이 분량도 길고 창의력이 필요한 글쓰기는 엄두가 나지 않습니다. 아직은 컴퓨터에게도 어렵기는 매한가지 입니다. 그러나 이제 컴퓨터가 글쓰는 법에 대한 걸음마를 시작했습니다. 비교적 짧은 글쓰기라고 할 수 있는 "노래 가사"를 쓰기 시작한 것입니다.


사실 엄밀히 말하면 딥비트(DeepBeat)라는 이 프로그램이 "글을 쓴다"고 하기에는 논란의 여지가 많습니다. 이미 나와 있는 여러 노래의 가사에서 어울릴 만한 부분들을 한 줄 씩 가져와 짜깁기를 하는 방식이기 때문입니다. 이 프로그램은 제이지, 릴웨인 등 유명 아티스트의 곡을 포함해 총 12,500곡에서 추출된 641,000줄의 가사를 데이터 베이스로 갖고 있으며, 사용자가 원하는 키워드를 입력하면 해당 단어가 포함된 가사를 데이터 베이스에서 찾아서 가사로 만들어 줍니다. 머신러닝 알고리즘을 사용해서 실제 사람이 가사를 쓸 때와 마찬가지로 라임도 맞추고 의미상으로도 연결되도록 가사를 찾아줍니다.

고급 설정

사용법도 아주 간단합니다. 아무것도 하기 귀찮다면 그냥 가사만들기(Generate lyrics) 버튼만 누르면 됩니다. 그럼 컴퓨터가 알아서 무작위로 가사를 만들어 줍니다. 만일 구체적인 요구사항이 있다면 고급설정에서 원하는 키워드를 입력하거나 필요한 가사 분량을 입력하면 됩니다. 또는 컴퓨터와 대화식으로 미리 제공된 여러 개의 가사 들 중 한 줄 한 줄 씩 직접 선택할 수도 있고, 한 줄은 컴퓨터가 그 다음 줄은 내가 직접 입력하는 식으로도 작업이 가능합니다.

hungry, money, donut 이라는 키워드로 만들어 본 가사

표절이냐 창작이냐

이 프로그램이 기존 가사에서 가사를 한 줄씩 가져다가 짜깁기를 하기 때문에 표절에 대한 우려가 생깁니다. 이것을 창작으로 볼 수 있는지에 대해서 짚고 넘어가야 할 부분입니다. 그러나 이 프로그램을 어떻게 활용하느냐에 따라 전혀 새로운 창작물을 얻을 수 있다는 점에 대해서도 가능성을 탐색해야 할 것입니다. 이 프로그램을 통해 브레인스토밍이나 아이디어 스케치를 한다고 생각하면 이는 작사가들에게 엄청난 도움이 될 수 있습니다. 입력하는 키워드에 따라 무작위로 생성되는 가사를 읽어보면서 완전히 새로운 스토리나 완전히 새로운 가사에 대한 아이디어를 얻을 수 있기 때문입니다. 이 프로그램이 생성해 내는 가사를 그대로 쓰는 것이 아니라 사람이 다시 커스터마이징 한다면 표절에 대한 걱정을 떨쳐내고 오히려 컴퓨터와 인간의 훌륭한 콜라보레이션이 될 수 있을 것입니다.

남겨진 숙제

홈페이지에 가서 사용해 보시면 알겠지만 아직은 프로토타입에 가깝다는 인상이 강합니다. 특히 가장 문제가 되는 것은 아직 의미상으로 매끄럽게 연결이 안되는 경우가 많다는 점입니다. 또 슬픔이나 기쁨과 같이 일관된 감정을 가진 문장들을 골라냈다고 하더라도 그것이 하나의 스토리라인으로 구성될 수 있는가하는 문제는 여전히 남습니다. 연구진은 이러한 문제점을 개선시키기 위해서 이 프로그램을 일반에게 공개한것으로 보입니다. 사용자들이 이 프로그램을 어떻게 사용하는가에 대한 데이터를 수집해서 알고리즘을 개선하고자 하는 것이죠. 사람들이 많이 사용하면 할 수록 이 알고리즘은 더 많은 것을 학습하게 될테고 언젠가는 의미상으로나 형식적으로나 꽤나 그럴듯한 가사를 "쏟아"낼 것으로 보입니다.

아래 두 영상은 딥비트가 "작사"한 가사로 노래를 부른 영상입니다. 딥비트로 만든 가사로 노래를 불러서 보내면 홈페이지에 올려준다니, 여러분도 한번 도전해 보시기 바랍니다.(아직은 영어와 핀라드어만 가능합니다.)






논문 보러 가기
Deepbeat 홈페이지 가기
관련 기사 바로 가기

[비즈니스]페이스북이 라인과 카카오톡을 뒤따른다?

미국 기업들은 언제나 벤치마킹의 대상이었는데요,  미국 기업이 그것도 페이스북 같은 거대 기업이 아시아 기업들을 벤치마킹한다는 내용의 기사를 보니 기분이 상당히 묘합니다. 어릴 때 팝송을 상위 카테고리에 두었다가 어느 순간부터 K-Pop, J-Pop과 함께 같은 레벨의 카테고리로 분류하기 시작했는데요. 마치 이 때 느꼈던 감정이랄까요? 아무튼 어딘가 기분이 묘해지는 아침입니다. 


메신저 본연의 기능에 충실했던 페이스북 메신저

페이스 북은 전세계에서 가장 많은 가입자를 가진 소셜 미디어 플랫폼입니다. 무려 13억 명이 넘는 액티브 사용자를 보유하고 있죠. 뿐만 아니라 페이스북 메신저를 사용하는 사용자도 7억명을 보유하고 있습니다. 페이스북 메신저는 그 동안 메신저 본연의 기능에만 충실했고 연동되는 서비스나 수익모델은 미비한 편이었습니다. 그런데 이번에 우버의 호출 기능을 페이스북 메신저 내에서 실행할 수 있는 서비스를 선보이면서 메신저 서비스의 기능적 확장을 예고했습니다.


페이스북 메신저 내에서 구동되는 우버(New York Times 발췌)


만능 스위스칼 아시아 기업을 뒤따르다

이와 같은 변화는 아시아 기업들의 전략을 벤치마킹한 것입니다. 위챗, 라인, 카카오톡 등은 이미 사용자 기반을 활용해서 게임, 스티커(이모티콘), 쇼핑, 택시, 핀테크 등 다양한 수익 모델을 만드는 데 성공한 바 있습니다. 뉴욕타임즈 기사에서는 이와 같은 아시아 기업의 비즈니스 모델을 스위스칼(The Swiss Army knife model)에 비유하고 있습니다. 실제로 페이스북은 앞으로의 변화를 위해서 위챗, 라인, 카카오톡과 같은 아시아 기업의 메신저앱에 대해서 면밀한 조사를 했다고 합니다.

위챗 사용자 1인당 연간 7달러 매출 

페이스북이 이와 같은 변화를 시도하는 것은 이것이 실제로 수익을 내는 비즈니스 모델이기 때문입니다. 중국기업 텐센트가 만든 위챗의 경우 단순한 메신저라기 보다는 여러 앱을 위챗 안에 모아 놓는 플랫폼에 가까운데요. 게임, 쇼핑 등과 연동됨은 물론이고 매일 새로운 앱들이 메신저 내에 추가되고 있습니다. 많은 기업들이 회의용으로 그룹 채팅 기능을 사용한다는 점도 주목하고 있습니다. 이와 같이 스위스칼과 같은 만능 기능 제공을 통해서 위챗은 사용자 1인 당 연간 7달러의 매출을 올립니다. 위챗의 활성 사용자 수 5억 5천만명을 곱하면 총 $3.8 billion, 우리 돈으로 연간 4조 원 이상의 매출을 올리는 것입니다.


2015년 8월 현재 메신저 앱 활성 사용자 수(We are Social)

맥락을 해치지 않는 부가 서비스를 추가해 나갈 것

페이스북 메신저도 이와 같은 방향으로의 변화를 시도하고 있습니다만, 여전히 메신저는 메신저 본연의 기능에 충실해야 한다는 우려의 목소리도 있습니다. 다만 메신저에서 친구나 가족과 대화하면서 사용자들의 '니즈'가 자연스럽게 발생할 수 있는 부분에 대해서는 추가 서비스를 확장해 나가야 한다는 목소리가 힘을 얻고 있습니다. 예를 들어 우버의 경우도 친구나 가족들과 '만남'을 위해 얘기하다 보면 그 장소까지 이동하기 위해 우버를 사용하는 것이 자연스러운 흐름이 될 수 있다는 점에서 메신저에서 구동되도 이상할 것이 없다는 논리입니다. 이처럼 페이스북 메신저는 메신저 기능의 근본적 맥락을 해치지 않는 범위내에서 서비스들을 추가해 나갈 것으로 보입니다. 이러한 전략의 하나로 최근 출시한 가상개인비서 서비스인 "M"을 메신저에 추가하는 것도 고려중이라고 합니다.


백화점식 사업모델 성공할까?

설명이야 어찌됐든 결국 메신저 본연의 기능에만 충실했던 페이스북이 아시아의 성공모델을 보면서 백화점식 비즈니스 모델을 도입해보겠다는 것인데요. 과연 이들이 아시아의 백화점식 사업모델을 성공적으로 정착 시킬 수 있을까요? 서양의 소비자들도 이에 호응을 보일까요? 참 이채롭고 어떤 결과가 나올지 기대됩니다.

뉴욕타임즈 기사 원문 보러 가기

2015년 12월 16일 수요일

[컴퓨터 예술]표정을 만들어 내는 디즈니의 페이스 디렉터

오늘은 디즈니에서 개발한 페이스 디렉터(FaceDirector)라는 영상 기술을 소개해 드립니다. 영화촬영을 다 끝마쳤는데 감정 표현을 다시해야 하는 경우 참 난감합니다. 단순히 오디오 더빙을 다시 하는 정도로는 해결 할 수 없는 경우에 특히 더 그렇습니다. 그런데 이제 페이스 디렉터라는 기술로 배우의 얼굴 표정을 섞어서 새로운 합성 영상을 만들 수 있게 되었습니다.

예를 들어 "동물원의 호랑이가 사람을 물어 죽이는 것을 봤습니다. 너무나 슬픈 장면이었어요" 라는 대사를 촬영한다고 가정해 보겠습니다. 겁에 질려 호흡이 가쁜상태에서 울면서 얘기할 수도 있고 호랑이 관리를 제대로 못한 동물원 측에 화가나서 분노에 차서 말 할 수도 있고 그도 아니면 모든 것을 받아들이고 담담하게 얘기할 수도 있습니다. 영화를 찍을 당시에는 어떤 감정이 좋을 지 확신 할 수 없을 것입니다. 이 때 각각의 감정선을 따로 따로 촬영해서 보관해 두었다가 편집 시에 각각의 촬영 분을 섞어서 최적의 영상을 하나 만들어 내는 것입니다.

아래 영상을 보면 아시겠지만, 각각의 감정에 따라 연기를 하면 똑 같은 대사를 하더라도 오디오 싱크가 맞지 않습니다. 따라서 섞고자 하는 두 영상의 오디오 싱크를 맞춥니다.(오이오 싱크가 맞춰지면 이에 따라 영상 싱크도 맞춰집니다.)



그리고 나서 섞고자 하는 두 화면의 비율을 어느 정도로 할 것인지를 정합니다. 예를 들어 처음에는 중립 100%로 시작해서 중간에 두려움 100%으로 갔다가 끝날 때는 중립과 두려움을 50:50으로 섞을 수 있습니다.



이 기술은 거의 실시간으로 구현할 수 있는데다가 표정변화가 굉장히 매끄러워서 관객들이 이것이 합성된 영상인지 알아차리기 힘든 정도의 높은 완성도를 갖고 있다고 합니다. 편집이나 재촬영 문제로 늘 골머리를 앓아왔던 감독들에게는 더할나위 없는 희소식일 것 같습니다.




이와 같이 파라미터 값을 실시간으로 변화 시키는 것은 음악 제작 시 볼륨값의 조정이나 이펙터 양의 조절 등 오토메이션이라는 기술로 오래전 부터 활용되어 왔었는데요, 이와 비슷한 기술이 이제 영상에서도, 그것도 아주 높은 수준의 완성도로 구현되는 시대를 맞이한 것으로 보입니다. 청각에 비해 시각은 파급력이 월등히 높다는 점에서 앞으로 이 기술이 어디까지 발전하게 될지 기대되네요.

디즈니 홈페이지에서 관련 내용 보기
참조 기사 보기


2015년 12월 15일 화요일

[인공지능] 로봇이 직관을 갖게 될까?

과학자들은 그 동안 여러 방면에서 사람의 일을 대신할 로봇을 개발해 왔습니다. 로봇이 대신한 일의 대부분은 반복적이거나 사람들이 기피하는 일들이었습니다. 이것은 단순히 사람들이 이 일을 기피했기 때문만이 아니라 인간의 직관이나 정신활동이 포함된 일을 로봇이 대신하기 어렵기 때문이기도 했습니다. 그런데 MIT의 과학자들이 로봇의 직관력에 대한 새로운 가능성을 실험하고 있습니다. 


연구진은 기계에게 약 8백만장의 사진을 보여줬는데 각 사진 속에 나오는 지역의 범죄율과 인구수에 대한 정보도 함께 알려주었습니다. 또 사진 속에 나타나는 맥도널드의 위치도 함께 알려주었습니다. 이 정보들을 제공한 이후에 연구진은 컴퓨터에게 추가적인 어떤 프로그래밍도 하지 않았습니다. 컴퓨터는 이 사진들을 분석함으로써 사진 속의 어떤 사물이나 아이템이 범죄율과 관계가 있는지 파악하고 맥도날드 주변에서의 범죄율과의 관계도 파악했습니다. 그리고나서 컴퓨터와 인간 연구진 중 누구의 직관력 뛰어난가에 대한 테스트를 진행 했습니다. 

실험 방식은 이렇습니다. 컴퓨터와 인간 연구진에게 새로운 사진을 보여주었습니다. 단 이번에는 사진 속에 나타난 사람의 수 등에 대한 추가적인 정보는 제공하지 않았습니다. 질문은 두 가지 였습니다. 동서남북 네 방향 중 어느 방향으로 가면 맥도날드가 나오겠는가와 그 방향의 범죄율이 높을것인가 낮을것인가 하는 것이었습니다. 

여러 번의 실험 결과 컴퓨터가 거의 매번 인간 연구진을 이겼습니다. 직관이라는 것은 기계는 가질 수 없는, 인간만이 가질 수 있는, 그래서 인류를 가장 강력한 종으로 만든 중요한 요인이었습니다만 앞으로는 기계가 직관의 영역에 있어서도 인간에게 많은 도움을 줄 것으로 예상되는 대목입니다. 

예를 들어 지금도 이미 사용하고 있는 네비게이션 시스템을 생각해 보시기 바랍니다. 현재도 길 안내는 물론이고 실시간으로 더 빠른 길에 대한 정보를 얻고 있습니다. 그런데 앞으로는 어떤 길이 범죄율이 더 낮은 안전한 길인지에 대한 정보도 얻을 수 있을 것입니다. 또 낯선 길에서 주유소의 위치를 짐작해서 찾아야 하는 상황이 생긴다면 사람보다 네비게이션이 더 빠르고 정확하게 길을 찾아낼 것입니다. 추가적인 정보 없이 주변의 인구수와 사진을 분석하는 것 만으로 말입니다. 

[잡생각] 돌연변이 슈퍼휴먼 "음악과학자"들이 예술의 지평을 확장한다

그동안 여러 명의 "음악과학자"들을 소개해 드렸습니다. 데이비드 코프(David Cope), 도냐 퀵(Donya Quick), 메이슨 브레튼(Mason Bretan), 프란시스코 비코(Francisco Vico) 등이 바로 그들 입니다. 달리 더 좋은 단어가 생각나지 않아 "음악과학자"라는 표현을 시도해 봅니다. 음악가라는 설명만으로 또는 과학자라는 설명만으로는 이들에 대해 설명해 낼 수가 없습니다. 이들은 연결점이 많지 않을 것 같은 음악과 컴퓨터 사이언스라는 서로 다른 분야를 좀 더 통합적인 시선을 통해 바라봄으로써 음악을 창작하는 인공지능을 만드는 일에 도전하고 있습니다.



이 일군의 음악과학자들은 감성적 영역으로 이해되는 음악에 대해 과학적 이해를 시도함으로써 기계가 인간의 감성과 창의력에 대해 이해하고 배우도록 합니다. 이들은 여기서 멈추지 않고 예술적 창작행위를 할 수 있는 기계, 인간과 감성적 교류를 할 수 있는 기계를 만드는 일에 도전하고 있습니다. 또 인간과 기계의 콜라보를 통해 지금까지는 존재하지 않았던, 완전히 인간의 예술도 아니고 완전히 로봇의 예술도 아닌, 인간과 로봇이 함께 만들어 내는 전혀 새로운 예술의 탄생을 이끌고 있습니다.

학제간 융합이라는 표현을 들어보셨을 겁니다. 서로 다른 분야의 전공자들이 모여 각자의 관점이나 지식을 나누다 보면 각각의 영역에만 머무르던 아이디어들이 "연결"되면서, "새로운 것 없이도 새로운 것을 만들어 낼 수 있는" 가능성을 갖게 됩니다.  기술과 문화를 결합하려는 CT(Culture Technology), 예술과 경영을 결합하려는 예술경영(Art Management) 등이 바로 그 예 입니다. 그런데 인공지능과 예술의 접점에 대해 관심을 갖고 자료를 찾다보니 융합이라는 것이 서로 다른 한 가지 능력을 갖고 있는 여러 사람이 모여 있을 때 보다 여러 가지 능력을 한 사람이 갖고 있을 때 더 큰 폭발력을 발휘하는 것은 아닐까 하는 생각에 다다릅니다.

이렇게 한번 생각해 보겠습니다. 서로 다른 종인 두 개체가 만나 새로운 종으로 진화를 한다고 가정했을 때 서로 다른 종인 이 둘은 아마도 여러 번의 실패를 겪으면서 몇 세대에 걸쳐 아주 느리게 새로운 종으로 진화해 나갈 것입니다. 그런데 우연히 여러 종의 DNA를 한 몸에 갖고 있는 개체가 있다면(일종의 돌연변이) 이 개체는 부작용을 최소화 하는 동시에 아주 빠른 속도로 새로운 종으로의 진화를 시도할 것입니다. 음악과 컴퓨터 사이언스라는 서로 다른 종류의 DNA를 한 몸 안에 갖고 있는 이 "음악과학자"들이 인간 고유의 정신활동인 예술을 인간과 기계의 협력 또는 경쟁 관계로 빠르게 진화시키고 있습니다. 음악인이자 동시에 컴퓨터 사이언티스트이기도 한 이 슈퍼휴먼들이 인간 예술의 영역을 전혀 새로운 지평으로 확장시키고 있습니다.

[컴퓨터 예술] 인공지능 로봇 팔을 착용한 인간 드러머

인간과 로봇의 이상적 결합

오늘 소개드릴 영상은 로봇 팔이 더해진 인간 드러머의 드럼 연주 영상입니다. 그 동안 소개 드렸던 예술과 관련된 기술은 크게 두 가지로 나뉩니다. 하나는 로봇의 창작에 관련된 기술이고 다른 하나는 로봇의 연주에 관련된 기술입니다. 전자가 인공지능과 관련된 소프트웨어 쪽이라면 후자는 연주를 하는 로봇(하드웨어)에 가깝습니다. 그런데 오늘 소개드릴 영상은 하드웨어와 소프트웨어가 결합된 로봇 팔이고, 게다가 사람이 이 로봇 팔을 착용하고 연주하는 방식입니다. 사람과 로봇이 결합한 새로운 형태로 볼 수 있으며, 단순 결합이 아닌 사람의 연주와 그 연주를 이해하고 그에 맞게 즉흥연주를 하는, 인간과 로봇이 음악적으로 결합할 수 있는 이상적인 형태라고 하겠습니다.

Jason Barnes 가 로봇 팔을 착용하고 연주하는 모습

인간 의지와 로봇 즉흥연주의 결합

이 프로젝트는 지난 번에 소개드린 바 있는 조지아텍의 메이슨 브레튼(Mason Bretan)이 참여한 프로젝트입니다. 메이슨이 즉흥연주를 하는 인공지능을 개발했던 이력이 이 프로젝트에도 반영되었습니다. 그의 설명에 따르면 로봇 팔에는 두 개의 스틱이 달렸있습니다. 그 중 스틱 A는 사람 연주자의 팔로 연주하거나 로봇의 근전도근육센서(electromyography (EMG) muscle sensors)에 의해서 연주될 수 있고, 나머지 스틱 B는 스틱 A가 연주하는 것을 듣고 그에 반응하며 즉흥 연주를 합니다. 로봇 팔에는 실제로 연주되는 음악을 들을 수 있는 칩이 내장되어 있습니다.

메이슨의 즉흥연주하는 인공지능관련 글은 여기를 보세요. 



위 영상이 로봇 팔의 프로토타입 모습니다. 화면상으로 스틱이 너무 빨리 움직여서 하나로 보입니다만 잘 보면 두개가 움직이는 것이 보입니다. 메이슨의 설명대로 스틱 A는 사람이 스틱을 잡고 치는 것과 같은 똑 같은 효과를 냅니다. 메이슨이 팔로 연주하는 대로 스틱은 그대로 연주됩니다. 그런데 스틱 A에 반응하는, 그러니까 사람의 실제 연주에 반응하는 스틱 B의 연주가 음악적으로 아주 훌륭합니다. 이는 메이슨 자신이 드러머이기 때문에 가능한 것으로 보입니다. 사전에 프로그래밍된 연주를 하는 것이 아니라 실제로 스틱 A의 연주에 따라 리듬을 인지하고 그에 적합한 즉흥 연주를 하는 것이라면, 리듬을 인지하는 인공지능은 상당한 수준에 도달한 것으로 보입니다.

아래 영상은 실제로 이와 같은 로봇 팔이 필요한 연주자가 이 로봇 팔을 착용하고 연주를 하는 영상입니다. 앞부분은 기술에 관한 설명으로 실제 연주를 보고 싶으신 분은 8분 10초 부근부터 보시면 됩니다.




로봇 팔에 적응 중인 사람 연주자

인터뷰 내용을 보면 사람 연주자가 새로운 로봇 팔에 적응하기 위해서 노력 중이라는 얘기가 있습니다. 아직까지는 로봇이 사람에게 적응하는 것 보다 사람이 로봇에 적응하는 것이 빠르기 때문일 것입니다. 이 로봇 팔에 적응 중인 드러머는 적응하는 어렵지만 새로운 것을 익히는 것이 재미있고 적응하는 과정을 즐기고 있다고 얘기합니다. 연주자로서 완전히 새로운 가능성을 보고 있는 것입니다. 그런가하면 연구진은 이렇게 얘기합니다. 이 로봇팔로 연주되는 음악은 완전히 사람의 것도 아니고 완전히 로봇의 것도 아닌 새로운 어떤 것이 될 것이라고 말입니다.

인간 연주자에게 완전히 새로운 가능성을 열다

이러한 설명과 함께 연주 영상을 보면 앞으로 연주의 세계가 로봇의 하드웨어와 인공지능에 발달에 따라 지금까지의 인간 연주자의 한계를 뛰어넘어 새로운 세계로 진입할 가능성이 엿보입니다. 이 로봇 팔은 핸디캡을 가진 인간을 배려하기 위해 개발되었지만 평범한 신체조건을 가진 연주자에게도 완전히 새로운 가능성을 열어주는 장치이기 때문입니다. 게다가 이것은 완전히 사람의 것도 완전히 로봇의 것도 아닌 완전히 새로운 화학반응을 일으키는 음악이 될 것입니다. 연주자가 이 로봇 팔의 사용법을 숙지하면 숙지할 수록 지금까지 우리가 들어왔던 드러밍과는 또 다른 패턴의 드러밍을 듣게 되는 날이 머지 않은 미래에 올 것으로 생각됩니다.

ABC News 기사 보러가기
ID Tech 기사 보러가기
Mason Bretan 홈페이지 보러가기

2015년 12월 13일 일요일

[인공지능]구글 딥마인드 테크놀러지 CEO가 말하는 인공지능


오늘 소개해드릴 내용은 구글 딥마인드 테크놀러지(DeepMind Technologies)의 CEO인 데미스 하사비스(Demis Hassabis)의 15분짜리 강연입니다. 데미스는 이 영상에서 인공지능은 인류가 발명한 가장 강력한 발명품이 될 것이라고 얘기합니다. 그리고 인공지능을 개발함으로 해서 우리가 풀지 못한 나머지 모든 숙제를 풀고자 한다고 이야기 합니다. 또한 인공지능 연구를 하기위해 뇌과학을 공부하게 된 배경에 대해서도 이야기합니다. 그가 말하는 모든 내용들이 흡입력이 너무나도 강해서 이야기 속으로 쭉 빨려들어 가게 됩니다. 강연 내용을 옮겨 적으며 아주 가끔씩 사족을 붙였습니다.


이 사람은 어렸을 때 물리학과 뇌과학에 관심이 있었다고 합니다. 정상은 아닌것으로 보이네요(-_-). 물릭학은 나를 둘러싼 바같 세계의 원리를 알 수 있는 학문이고 뇌과학은 내 안의 원리를 이해할 수 있는 학문이어서 관심을 갖게 됐다고 합니다. 헉-_-. 그러던 중 뇌과학에 더 관심을 갖게 됐는데, 그 이유는 뇌가 바깥세계를 해석하기 때문이고, 결국 뇌가 어떻게 작동하는 지를 알아야 뇌가 바깥세계를 왜 지금과 같은 방식으로 해석하는지에 대한 이유를 알 수 있다는 것이죠.

그는 무엇인가에 대해서 이해한다는 것에 대해 이렇게 설명합니다. "무엇인가에 대해서 이해한면 그것을 다시 만들 수 있어야 한다". 그러면서 그가 가장 존경하는 사람 중 한 명인 리처드 파인만의 말을 인용 합니다. "만들 수 없다는 것은 이해하지 못하는 것이다(What I can not build, I do not understand)."

바로 이런점에서 인공지능에 대한 연구가 가치를 갖는다고 얘기합니다. 인공지능을 만들 수 있다는 것은 결국 사람의 뇌가 어떻게 작동하는지를 이해했다는 증거이기 때문입니다. 바로 이것이 제가 인공지능의 예술 창작에 대해 관심을 갖는 이유이기도 합니다. 예술을 창작하는 인공지능을 만들었다는 것은 결국 인간이 예술을 창작하는 방식에 대해 이해했다는 증거가 되니까요. 인공지능에 대한 연구는 이러한 측면에서 결국 사람에 대한 연구로 귀결됩니다.

이 사람은 인공지능을 연구하기 위한 첫 단계로 게임을 선택합니다. 처음에는 체스게임을 개발했고 그 다음에는 테마파크 게임을 개발했습니다. 17살(90년대 중반)에 이 테마파크 게임을 개발했는데, 이 게임에서 처음으로 인공지능을 사용했다고 합니다. 이 게임은 슈팅게임 같은 것들과는 다르게 게이머가 자신만의 디즈니 랜드를 만들고 수천 명의 다른 사용자들이 자신의 디즈니 랜드에 얼마나 자주 방문하게 할 것인가와 같은 매니지먼트 시뮬레이션 게임이라고 설명합니다. 그리고 이러한 모든 과정은 게이머가 무엇을 어떻게 하느냐에 따라 "반응"이 달라진다고 설명합니다. 따라서 똑 같은 게임이더라도 똑 같은 경험을 하는 사용자는 생길 수 없습니다. 인공지능이 게이머가 어떻게 게임을 진행하는가에 따라서 모두 다르게 반응하기 때문입니다. 

이 사람은 그 이후로도 몇 개의 게임을 개발했는데 모두 AI와 관련된 것들었고, 10년 전에 그 게임회사를 매각하고 뇌과학으로 박사과정을 공부하기 위해 대학교에 입학했습니다. 그리고 "상상과 기억(Imagination and Memory)에 집중했습니다. 이유는 인공지능에서 이 문제를 어떻게 해결하면 좋을지 잘 몰랐기 때문입니다. 따라서 뇌가 상상과 기억에 대해서 어떻게 처리하는지를 안다면 인공지능에서도 활용할 수 있을 것으로 생각했습니다. 그리고 MIT와 하버드에서 공부한 것을 토대로 딥마인드라는 회사를 시작했습니다.

2010년에 딥마인드라는 회사를 시작했고(생각보다 엄청 빠르네요. 우리는 이제서야 기사를 통해 인공지능이 화제가 되는 것을 경험하고 있는데 이미 2010년에 회사를 세웠다니 대단합니다), 1백 명이 넘는 머신러닝과 뇌과학 분야 박사급 연구원들이 참여 중인 인공지능을 위한 아폴로 프로그램(An Appollo Programme for AI)도 운영되고 있다고 합니다.



딥마인드의 미션

1. Solve Intelligence
2. Use it to solve everything else

와. 정말 입을 다물 수 없을 정도의 명확한 미션입니다. 인텔리전스라는 것이 무엇인지 밝혀내고 그것을 통해 나머지 모든 것을 해결한다는 어마어마한 미션입니다.

그리고 이것을 달성하기 위해 "범용 학습 기계"를 만들고자 한다는 실행계획도 얘기합니다. 키워드가 "범용(general)"과 "학습(learning)" 입니다.

학습에 대해서는 이렇게 설명합니다. 
- 사전에 프로그램되지 않은 상태로 혼자서 스스로 배우는 것(Learn automatically from raw inputs)

범용에 대해서는 이렇게 설명합니다.
- 하나의 시스템이 여러 영역에서 활용될 수 있는 것(same system can operate across a wide range of tasks)

그러면서 현재 AI라고 불리는 것을 Narrow AI로, 자신들이 갖고 있는 개념을 AGI(Artificial General Intelligence)로 명명하면서 차별화를 시도합니다. 그 예 중 하나로 제퍼디 쇼에서 우승한 IBM의 왓슨 역시 좁은의미에서의 인공지능이라고 지적합니다. 그리고 이러한 좁은 의미에서의 인공지능은 어떤 특정한 작업에만 작동하도록 되어있다고 설명합니다.

이와는 반대로 딥마인드에서 개발중인 AGI는 좀더 범용성과 유연성을 갖고 있고, 따라서 사전에 그 어떤 것도 미리 프로그램을 해 둘 필요가 없고, 무엇이든지 처음 보는 것으로 부터 학습한다고 설명합니다.


구글 딥마인드 프레임워크


왼쪽에는 시스템(인공지능)이 있고 오른쪽에는 뭔가를 학습해야하는 환경이 있습니다. 이 환경은 실제일 수도 있고 가상일 수도 있습니다. 우선 환경에 대해서 "관찰"하게 됩니다. 딥마인드에서는 시각(비전)을 통해 합니다만 다른 감각이 될 수도 있습니다. 이 때 "관찰"에는 노이즈가 포함되기 마련입니다. 따라서 시스템의 최우선 과제는 노이즈가 잔뜩 포함된 관찰을 통해서 바깥세계를 이해할 수 있는 최적의 모델을 만들어 내는 것입니다. 그리고 시스템은 취할 수 있는 수 많은 액션 중에서 최적의 액션을 선정합니다. 이 액션은 환경에 영향을 미칠수도, 미치지 않을 수도 있으며, 이를 통해 새로운 "관찰"을 다시 얻게 됩니다. 이 그림에는 아주 간단하게 표현되어 있지만 사실은 굉장히 복잡한 프로세스입니다. 만약 여기서 일어나는 모든 과정을 설명할 수 있다면 그것이 바로 인텔리전스(intelligence) 일 것입니다. 왜냐하면 바로 이것이 인간을 포함한 모든 포유류가 학습하는 방식이기 때문입니다. 사람의 경우는 뇌에서 도파민 시스템이 이런 학습과정을 진행시킵니다. 

이를 테스트하기 위해 컴퓨터에게 아타리 게임을 하도록 했습니다. 컴퓨터가 본 것이라고는 게임의 화면 픽셀이 전부입니다. 사람이 처음 이 게임을 하는 과정과 똑 같습니다. 이 실험의 목표는 인공지능이 가능한 높은 점수를 얻는 것이었습니다. 


스페이스 인베이더를 플레이하는 인공지능

위 게임 한번 안해 보신 분 없을텐데요. 스페이스 인베이더라는 게임입니다. 인공지능이 이 게임을 처음 할 때는 엉망이었지만, CPU하나 짜리 컴퓨터가 하루 밤 동안 학습한 결과 사람보다 훨씬 잘 하게 됩니다. 인공지능이 플레이 하는 것을 보면 일단 미싱 샷이 거의 없습니다. 모두 목표물에 적중시키고 있으며 자신을 보호해 주는 마더쉽을 향해서는 거의 미사일을 쏘지 않습니다. 또한 마지막 한 마리를 공격하는 장면을 보면 그 목표물의 움직임 속도를 예측해서 미사일을 쏘는 것을 볼 수 있습니다. 그리고 이 모든 것은 스크린에 나타나는 픽셀로 부터만 학습한 것입니다.


벽돌깨기 게임 100회 연습한 인공지능

벽돌깨기 게임 500회 연습한 인공지능


위 그림은 인공지능이 벽돌깨기 게임을 각 100회, 500회 연습했을 때의 화면입니다. 100회 였을 때는 아직 미숙하지만 500회 연습했을 때는 양 옆의 벽돌을 뚤어 터널 사이로 공을 집어넣어 천장과 벽돌의 반사작용으로 벽돌이 모두 깨지게 하는 모습을 볼 수 있습니다.



Concepts and Memory

현재는 컨셉과 기억에 관해 관심을 갖고 있는데 이는 뇌의 한 부분이 해마(Hippocampus)의 작동 원리를 모방하려는 시도라고 합니다. 3D 게임은 물론이고 유튜브 추천 시스템 등에 활용될 수 있습니다.


Meta-Solutions

최근의 문제는 데이터는 사방천지에서 구할 수 있는데, 이 데이터들을 어떻게 활용할 것이냐 하는 문제라고 지적합니다. 이 데이터들로 부터 어떻게 통찰을 얻어낼 것인가 하는 문제라는 얘기죠.

Information overload : big data, genomics, entertainment, personalization
System complexity : climate, disease, energy, macroeconomics, physics

아무리 뛰어난 개인이라고 하더라도 이 방대한 데이터로 부터 통찰을 얻어내기란 쉽지 않은 일입니다. 따라서 AI를 만들어 내는 것이 결국 이 모든 문제를 해결 할 수 있는 메타 솔루션이 될 것이라고 얘기합니다. 그리고 궁극의 목표는 인공지능 과학자나 인공지능의 도움을 받는 과학자를 만드는 것이라고도 덧붙입니다.


윤리 문제

마지막으로 인공지능과 관련한 윤리 문제에 대해서 논의를 시작할 때라고 이야기 합니다. 아직 인간 수준의 인공지능이 나오려면 몇 십년이 걸리겠지만 지금 논의를 시작해야 한다고 얘기합니다.

지식을 통해 사람을 강력하게 한다(Empowering people through knowledge)
인공지능이 자동으로 정보를 지식으로 바꾼다(AGI automatically converts information into knowledge)
인공지능을 개발함으로써 마음(mind)의 미스테리를 밝혀낸다


[인공지능]빅데이터 전문가를 압도하는 인공지능

최근 2~3년 사이에 빅데이터가 화두였습니다. 그 전까지만 해도 숫자를 통해서만 통계적 의미를 확인하는 것이 일반적이었습니다. 그런데 빅데이터라는 것이 등장하면서 부터 소셜 미디어에 떠 다니는 수많은 텍스트나 이미지로 부터 의미 분석이 가능하게 되었습니다. 데이터 전문가들은 빅데이터라는 정보의 바다에서 의미 있는 정보를 찾아내어 그 정보에 대해 설명하고 앞으로 어떻게 될 것인지에 대해 예측을 제시했고 이들의 몸값은 치솟았습니다. 그런데 이런 일을 대신 할 수 있는 인공지능 소프트웨어가 나왔다고 합니다. MIT 연구진은 사람보다 훨씬 빠른 시간 내에 대등하거나 더 나은 수준으로 빅데이터를 분석해 내는 인공지능 소프트웨어를 개발했고 이미 이를 활용한 스타트업을 시작했다고 합니다.

Illustration: MIT
하버드 비즈니스 리뷰는 2012년에 빅데이터 분석 전문가를 21세기 유망직종 6위에 올리기도 했습니다만, 예측을 내 놓은지 불과 3년 만에 이러한 예측을 수정해야 할 지도 모르겠습니다. 사람과 인공지능의 빅데이터 분석 능력을 대회를 통해 검증해 본 결과 인공지능이 무려 60~70%에 이르는 사람 빅데이터 전문가 집단을 앞질렀기 때문입니다. 인공지능 보다 더 나은 분석력을 보인 인간 전문가는 불과 30% 정도 였습니다.

이 소프트웨어를 개발한 연구진은 빅데이터 전문가들이 일자리를 잃게 되거나 가치가 떨어지는 것은 아닐 것이라고 얘기합니다만, 이 말을 그대로 받아들이기는 어려워 보입니다. 현재 최상위 전문가 집단의 연봉이 약 1억원(10만 달러)이라고 하는데요, 기업들 입장에서는 전문가를 채용하는 대신 소프트웨어를 구매할 가능성이 높아질 수 밖에 없습니다. 또 연봉 등 경제적 부담이 커서 빅데이터 전문가를 채용하지 못했던 소규모 사업자들에게도 이는 분명 희소식 입니다. 잠재적으로 데이터 전문가들의 몸값은 하락이 불가피 할 것으로 예상됩니다.

빅데이터 분석과 같은 일은 화이트 칼러 잡 중에서도 매우 전문성이 높은 일로 여겨져 왔다는 점에서 상당히 충격적인 일로 생각됩니다. 기사에 따르면 최상급의 전문가가 한 달여에 걸쳐 매달려야 하는 일을 이 소프트웨어는 길어야 12시간이면 할 수 있다고 합니다. 또 그 정확성에 있어서도 90%를 상회한다고 하니 기업 입장에서 굳이 전문가를 채용해야 하는 이유가 있는 것인지 의문이 들기도 합니다.

이에 대해 연구진은 이 소프트웨어의 개발이 인간 전문가의 자리를 대체하는 것이 아니라 오히려 더 많은 데이터 전문가를 양성하는데 기여할 것이라고 얘기합니다. 빅데이터에 대한 깊이 있는 지식이 없더라도 이 툴을 다룰 줄 안다면 전문가와 같은 퍼포먼스를 낼 수 있기 때문입니다. 마치 그림이나 사진에 탁월한 재능이나 능력이 없어도 포토샵을 활용해서 전문가 뺨을 후려치는 작품을 생산하는 일반인들이 많아진 것과 비슷한 논리입니다. 정말 최근의 기술 발전 속도를 보면 인간이 지적 능력으로 컴퓨터와 경쟁을 하려는 시도 자체가 무의미해 보이기도 합니다.

좀 더 자세한 내용을 보고 싶으면 아래 기사 원문 보기를 클릭하시거나 밑에 한글 번역 기사를 읽어보시기 바랍니다.


기사 원문 보러가기는 여기를 눌러주세요.

스타트업 Feature Lab 홈페이지 바로가기


지금까지 데이터 전문가들은, 아주 높은 연봉을 받는 사람들조차, 데이터에 대한 설명과 패턴 예측을 하기위해 인간의 직관에 의존해 왔습니다. 그러나 이번에 MIT에서 개발한 "데이터 사이언스 머신" 소프트웨어는 로데이터 간의 상관관계 확인을 통해서 완전히 자동화된 컴퓨터 예측모델을 만들어 냅니다. 이 소프트웨어 때문에 데이터 전문가들이 위협 받을 것이라고 생각할 수도 있겠지만 오히려 데이터 전문가들에게 도움이 되는 측면도 있습니다. 소프트웨어가 예측 모델을 더 빨리 만들기 때문에 사람이 할 일이 그만큼 줄어드는 것이죠. 게다가 회사 측면에서도 얻는 장점도 큽니다. 회사 입장에서는 데이터 전문가를 키우기 위해 들여야 할 노력과 비용을 줄일 수 있기 때문입니다.

MIT의 컴퓨터 사이언스와 인공지능 연구실(MIT Computer Science and AI Lab)의 데이터 과학지이자 "데이터 과학 머신"의 공동 개발자이기도한 맥스 캔터(Max Kanter)는 이 소프트웨어의 개발을 통해 데이터 전문가가 늘어날 수 있을 것이라고 얘기합니다. 앞으로 데이터 전문가에 대한 수요가 증가할 것으로 예측되는데, 이런 기술의 발달로 인해 수요보다 공급이 앞설 것이라는 얘기입니다. 이번에 개발된 "데이터 과학 머신"이 사람 데이터 전문가가 약 한달이 걸려야 할 수 있는 일을 2~12시간 정도면 로데이터 분석을 통해 자동으로 정확한 예측모델을 만들어내기 때문입니다.

페이스북에서부터 월마트에 이르기까지 데이터 전문가는 여전히 희소성이 있는 인재이고 연봉도 약 1억원 수준으로 높은 편입니다. 2011년, 매킨지는 미국에만 한정하더라도 약 14만에서 19만 명 정도의 데이터 전문인력 부족 현상이 있을 것으로 예상했습니다. 2012년 하버드 비즈니스 리뷰는 데이터 전문가를 21세기 유망직종 6위에 올리기도 했습니다.

이러한 현상은 빅데이터로 부터 얻을 수 있는 가치있는 정보들이 많기 때문입니다. 소셜미디어 사용자들의 행동을 예측할 수도 있고, 금융시장에서 수십억 달러의 가치를 창출할 수도 있고, 천문연구에도 사용될 수 있기 때문입니다.

이처럼 가능성은 높지만, 실제로 로데이터를 통해 비즈니스에 도움이 될 수 있는 정보로 변화하는 것은 쉬운 일이 아닙니다. 데이터 전문가라고 할지라도 이런 일을 하기 위해서는 예측 모델을 만들기 위해서 한달여 정도를 매달려야 하고, 로데이터 중에서 핵심 변수가 무엇인지를 알아내기 위해 여러 차례에 걸쳐 데이터를 샅샅이 뒤져야 합니다. 그리고 나서 "머신 러닝"이라고 알려진 기술을 사용해서 그 변 수들을 테스트하고 수정해 나가야 합니다.

연구진은 이러한 데이터 전문가들의 작업 프로세스에서 영감을 얻어서 이번 프로그램을 개발했습니다. 지금까지의 데이터 분석 프로그램들은 1차원 적이거나, 아주 특정한 산업이나 특정 분야에 한정되어 있었는데, 이번 프로그램 개발을 통해 어떤 데이터라도 분석 가능하도록 개발하고자 했습니다.

방대한 로데이터에서 의미있는 상관 변수를 자동으로 추출해 내는 "피쳐 엔지니어링(feature engineering)것이 이번 개발의 핵심입니다. 두 번째 핵심 기능은 데이터에서 최적 파라미터 셋을 찾아내는 "오토 튜닝(auto tuning)" 기능 입니다. 이 기능을 통해 가장 관계가 높은 하위 변수들을 찾아낼 뿐만 아니라 변수들 간의 관계를 밝히고 예측 모델을 결정하기 위한 최적의 머신러닝 기술이 무엇인지도 찾을 수 있습니다.

이 프로그램을 개발하고 나서 모두 세번의 데이터 분석 대회(KDD Cup 2014, IJCAI, and KDD Cup 2015)에 참가했는데, 참가팀 인간 데이터 전문가로 구성된 906팀 중 615개의 팀을 제쳤습니다. 또한 각 대회에서의 데이터 분석 정확도는 94%, 96%, 87%로 상당히 높았습니다. 이런 결과는 아직 인공지능이 최상위의 데이터 전문가들에게는 뒤쳐지지만 일반적인 수준에서는 상당히 경쟁력이 있다는 것을 보여줍니다.

그렇다고 데이터 전문가들의 가치가 낮아지거나 일자리를 잃게 되는 것은 아닙니다. 그 보다는 데이터 전문가들이 좀더 효율적으로 일할 수 있게 됐다고 봐야겠습니다. 그럼에도 불구하고 많은 기업들에게 이 소프트웨어가 데이터 전문가를 채용하는 데 있어 많은 영향을 미칠 것입니다. 점점 더 많은 기업들이 데이터 전문가를 필요로 하게 될텐데, 모든 기업들이 구글이나 페이스북에서 일하고 있는 높은 수준의 데이터 전문가를 채용할 수 있는것은 아니기 때문입니다.

연구진들은 이렇게 말합니다.

"앞으로 데이터에 기반한 의사 결정은 점점 늘어날 것이다. 따라서 점점 더 많은 데이터 전문가가 필요할 것이고 더 능력있는 데이터 전문가가 필요할 것이다. 그런데 사람들을 교육하거나 훈련해서 이러한 수요를 다 충족시키기는 어려울 것이다. 따라서 기계가 더 잘할 수 있는 부분에 대해서는 기계에게 맡기고 사람은 사람이 잘 할 수 있는 일에 집중하는 것이 좋을 것이다."

연구진은 빅데이터에를 분석하고 그에 기초한 의사 결정을 함으로써 어떤 회사라도 "테크 기업(tech company)"가 될 수 있을 것이라고 얘기합니다. 이커머스, 크라우드 펀딩, 소매, 교육, 금융, 정부에 이르기 까지 빅데이터의 활약은 영역을 가리지 않고 퍼져나갈 것입니다. 그리고 이 연구진은 "Feature Lab" 이라는 스타트업을 통해서 이미 고객사를 모집하고 있기도 합니다. 이 스타트업의 슬로건은 이렇습니다.

"데이터 전문가 없이도 데이터로부터 더 많은 일을 하세요."


2015년 12월 12일 토요일

[인공지능]인공지능 개발에 가속도를 붙이는 베이지언(Bayesian)

오늘은 베이지언(Bayesian Program Learning 또는 BPL)이 머신러닝의 또 다른 방향을 제시한다는 내용의 기사를 소개해드리려고 합니다. 그동안 머신러닝에 대한 기사를 몇 번 소개해 드렸는데요, 그 기사들을 통해서 알 수 있었던 것은 머신러닝을 하기 위해서는 컴퓨터가 학습할 충분한 양의 데이터가 필요하다는 것이었습니다. 컴퓨터가 패턴을 읽어내기 위해서는 대량의 데이터가 필요하다는 것이었죠. 그런데 오늘은 대량의 데이터가 없이도 '마치 사람과 같이' 한 번 보면 그대로 모방할 수 있는 인공지능을 개발할 수 있다는 내용을 소개해 드리려고 합니다.  

원문 기사 보러가기는 여기를 눌러주세요.

이 그림은 사람과 기계가 지구상의 글자들을 어떻게 모방하는지를 보여준다. (Credit: Danqing Wang)

아래 영상에는 연구진이 어떤 연구를 했는지가 그대로 설명되어 있습니다. 사람은 화면 속에 나오는 등산장비를 한 번 보면 그 등산 장비가 어떤 특징을 갖고 있는지 금세 부분 별 특징을 짚어낼 수 있습니다. 그리고 등산장비와 핸드폰 줄 같이 비슷하게 생겼지만 전혀 다른 카테고리에 속하는 두 물건이 섞여 있을 때 등산장비만을 쉽게 골라낼 수 있습니다. 어린이들은 한 번 동물을 보면 그 동물이 무슨 동물인지 알고, 자동차 엔지니어는 부품 교체를 어떻게 하는지 한 번 보면 그것을 그대로 따라 할 수 있습니다. 과연 기계도 이처럼 한 번 보면 그대로 모방할 수 있을까요? 



연구진은 이를 확인하기 위해 산스크리트어와 티벳어등 모두 50개의 언어에서 1623개의 알파벳을 사용해 실험을 했습니다. 각 알파벳 뿐만 아니라 각각의 알파벳에 해당하는 손글씨를 수집했습니다. 그리고 기계에게 이 글자들의 생김새를 보여주는 동시에 사람들이 이 글자(처음보는 글자)를 보고 어떻게 따라 쓰는지, 손글씨를 쓰는 과정도 보여주었습니다. 

그런데 이 과정에서 주목할 만한 사실을 발견하게 됩니다. 사람들이 글자를 보고 따라 쓰는 방법을 분석한 결과 획을 긋는 순서 등에서 공통점이 발견된 것입니다. 사람의 경우 처음보는 글자라고 할 지라도 그 글자를 어떻게 따라 쓰면 좋을지에 대해 공통적으로 인식하는 패턴이 있다는 얘기입니다. 바로 이부분이 연구진이 원하는 것이었습니다. 연구진은 기계도 처음 보는 글자에서 사람과 같이 패턴을 발견해서 그 글자를 따라 쓸 수 있는가 하는 것을 알아내고자 했습니다. 

이를 테스트 하기 위해 기계에게 글자 하나를 보여주고, 그 글자를 쓰는 방법을 몇 가지 알려준 다음, 기계 스스로 그 글자를 쓰도록 했습니다. 그리고 나서 똑 같은 글자에 대해 기계가 쓴 것과 사람이 쓴 것을 구분할 수 있는지 사람을 대상으로 "비주얼 튜링 테스트"를 했습니다. 튜링테스트 결과 사람이 쓴것과 기계가 쓴것을 제대로 골라낸 비율은 25% 이하였습니다. 무려 75%가 기계가 쓴 글자와 사람이 쓴 글자를 구분해 내지 못한 것입니다. 이 정도 되면 기계가 사람만큼 한 번 보고 제대로 분류할 수 있는 학습 능력을 가졌다고 봐야 할 것입니다. 

이 연구진들은 자신들이 개발한 베이지안 학습법에 대해 굉장히 자신있는 모습입니다. 난생 처음보는 문자를 빠르게 배워야 하는 시스템이 필요하다면 그건 아마 자신들이 개발한 시스템일 것이라고 얘기 합니다. 물론 문자 분류작업이라는 것이 아주 간단한 작업이어서 아직 보완할 점이 많다는 것에 대해서도 인정합니다. 그러나 동시에 알고리즘이 다듬어 진다면 차세대 음성인식 시스템 등에 활용될 수 있을 것으로 전망하는 등 베이지언 알고리즘이 머신러닝에 있어 큰 변화를 가져올 것임을 예고합니다.  

최근 들어 쏟아져 나오는 인공지능 관련 기사들을 보고 있으면 정말 그 발전 속도가 어마어마하다는 생각이 듭니다. 불과 어제까지만 하더라도 머신러닝의 필수 요소로 충분한 양의 데이터가 거론되었는데, 이런 이야기가 나온지 불과 1~2년 사이에 이제는 데이터의 양도 그리 많이 필요하지 않다는 얘기가 나오기 시작합니다. 머신러닝, 그리고 인공지능 앞으로 어디까지 갈까요? 그리고 얼마나 빨리 갈까요?


연구진
MIT, Joshua Tenenbaum : Research Article 보러가기
NYU, Brenden Lake 
University of Toronto, Ruslan Salakhutdinov 

2015년 12월 10일 목요일

[잡생각]프로그래머들의 문제 해결 방식

최근들어 개천에서 용나기 힘들다는 얘기를 많이 합니다. 신분 상승이나 계층간 이동이 점점 어려워진다는 얘기죠. 상당히 수긍이 갑니다. 그런데 그런 와중에도 개천에서 용이 나기도 합니다. 오히려 개천에서 용이 났다는 표현이 부족할 정도로 어마어마한 성공을 일구어 내는 사람들이 있습니다. 마이크로소프트의 빌게이츠, 애플의 스티브잡스, 구글의 세르게이, 페이스북의 주커버그, 카카오톡의 김범수 등등이 바로 그들입니다. 과연 이들의 공통점이 뭘까요? 과연 무엇이 이들로하여금 세상의 천지개벽을 이루게 하는 것일까요?


너무나 당연해 보일수도 있습니다만, 저는 이들 모두가 프로그래머라는데서 답을 찾고자 합니다. 저는 요새 생활코딩이라는 곳에서 HTML5 강좌를 듣고 있는데요. 강좌를 통해서 HTML5의 문법 뿐만이 아니라 도대체 프로그래머라는 사람들이 어떤 일을 하는 사람들인지에 대해서도 아주 조금씩 조금씩 알아가고 있습니다.(생활코딩에 개설된 강좌는 초보자들이 보기에 너무나 좋습니다. 선생님이신 이고잉님이 너무나도 깔끔하고 개념이 잘 정리된 강의를 하십니다. 관심있는 분들은 수강해보시기 바랍니다. 무료입니다.)

우리 모두는 이미 태어나면서부터 굉장히 완성도가 높은 각자의 모국어를 익혀서 사용하고 있습니다. 언어라는 것이 이미 너무 오래전에 만들어지고 오랜기간 다듬어 져서 그런지 현대를 사는 우리가 문법을 수정하거나 새로운 문법을 만드는 일은 거의 없습니다. 물론 신조어 정도는 계속해서 생산되고 있지만 말입니다. 그런데 이 프로그래머라는 사람들은 세상에 없던 기계어라는 언어를 새롭게 만들어서 사용하고 있더군요. 언어를 모르는 컴퓨터와 소통하기 위해 아예 새로운 언어를 만든 것이지요(물론 영어이긴 합니다). 당연히 아직은 언어의 완성도가 부족할 테고, 뭔가 부족함을 느낄때마다 새로운 문법을 개발하거나 아예 새로운 언어를 개발해서 컴퓨터와 소통력을 끊임없이 향상시키고 있습니다.

저는 바로 여기에서 프로그래머들의 경쟁력을 찾고자 합니다. 이 사람들이 하는 일의 본질이라는 것은 문제를 해결하기 위해 이전에는 존재 하지 않았던 새로운 문제해결법을 제시하는 것일 수도 있기 때문입니다. 기계와 소통하고자 기계어라는 언어를 새로 만든 것 처럼 말입니다. 그리고 우리는 이런 현상을 흔히 "패러다임쉬프트"라고 부릅니다.

언어는 그 자체로 하나의 사고의 틀입니다. 각각의 언어는 이미 내부에 문제 해결 방식을 담고 있다는 뜻이겠죠. 프로그래머들이 일반인들과는 다르게 그들만의 방식으로 문제를 해결해 내는 것은 이들이 일반인은 모르는 기계어의 사고체계로 문제를 풀어내기 때문이 아닐까요? 2015년은 인공지능 개발에 있어 기념비적인 한해라고 합니다. 다른 의미로 풀이하자면 기계어라는 언어 체계가 나고 태어난 이래로 끊임없이 개발되고 다음어져온 바, 2015년에 이르러 기계어라는 언어 체계의 성숙도가 획기적으로 높아진 한해라는 뜻이 될 것입니다.

새로온 언어의 개발을 통해 세상의 문제를 풀어 왔던 프로그래머들이 이제 그 언어의 완성도 마져 향상된 시대를 맞았습니다. 프로그래머들은 더욱 더 어마어마한 속도록 세상의 변화를 이끌어 내지 않을까요?


[컴퓨터 예술]음악에서 사람 목소리를 구분하는 인공신경망

오늘은 "딥러닝 머신이 칵테일 파티의 문제를 해결했다"는 제목의 기사를 소개해 드리려고 합니다. 칵테일 파티 효과(cocktail party effect)는 주변 환경에 개의치 않고 자신에게 의미 있는 정보만을 선택적으로 받아들이는 것을 말합니다. ‘선택적 지각(selective perception)’ 또는 ‘선택적 주의’라고 하는데, 이런 선택적 지각이나 주의가 나타나는 심리적 현상을 일컫는 것으로 ‘자기 관련 효과(self-referential effect)’, ‘연회장 효과, 잔치집 효과’라고도 합니다.(출처 : 위키피디아)

음악을 들을 때도 우리는 이와 비슷한 상황을 경험하게 됩니다. 음악에 따라 여러 가지 악기와 사람의 목소리가 복잡하게 섞여 있는데, 사람들은 자기의 의도에 따라 특정한 사람의 목소리 또는 특정한 악기만을 따로 구분하여 듣습니다. 그런데 이 일을 기계도 할 수 있을까요? 사람에게는 정말 아무것도 아닌 능력일 수 있는 일이지만, 최근까지 기계에게는 이것이 굉장히 어려운 일이었다고 합니다. 그런데 최근 인공신경망이라는 머신러닝 기술을 통해 기계도 이일을 해 낼 수 있게 됐다고 합니다. 근래 들어 사람의 얼굴인식이나 표정인식과 같은 시각 영역에서 머신러닝의 활약이 두드러졌는데, 이제는 컴퓨터가 사람 못지않은 청각 능력도 갖게 된 것입니다. 


기사원문은 여기를 클릭해 주세요.







칵테일 파티 이펙트(Cocktail party effect)는 여러 사람의 목소리나 여러 배경음 가운데서 특정 사람의 목소리를 구분해 내는 능력을 말합니다. 사람은 쉽게 할 수 있는 일이지만 과학자나 엔지니어들이 인공적으로 재현하기는 어려운 문제였습니다.

음악 분야에서도 이 칵테일 파티 이펙트가 특히나 어려운 문제로 여겨집니다. 사람은 여러 악기가 함께 연주되는 사운드 속에 사람 목소리가 숨어 있어도 이것을 아주 잘 구분해 내지만 기계는 이 일을 하는데 어려움을 겪습니다.

그런데 최근에 영국 서레이 대학교의 앤드류 심슨과 동료들 덕에 이 문제가 풀릴 수 있을 것으로 보입니다. 이 연구진은 배경음악에서 사람 목소리를 구분해 내기 위해 인공신경망(Deep Neural Network)을 사용했습니다.

이러한 접근법은 최근 머신러닝이나 신경망(neural network) 연구가 크게 진보했다는 것을 보여줍니다. 또 이연구를 통해 음악에서 목소리를 구분해 내는 것 뿐만아니라 칵테일 파티 이펙트라고 알려진 것과 관련된 좀 더 보편적인 문제들도 해결할 수 있을 것으로 보입니다.

이 연구진이 선택한 연구법은 아주 직설적입니다. 여러 악기나 보컬이 각각 별도의 트랙에 기록되어 있는 63곡을 수집해 이를 데이터베이스화하여 분석하였습니다. 물론 모든 악기와 보컬이 하나의 파일로 믹스되어 있는 트랙도 있습니다.

연구진은 악기별로 따로 녹음된 트랙과 모든 악기와 보컬이 합쳐져 있는 트랙을 20초 단위로 쪼개어 각 부분별로 어떤 주파수 특성이 나타나는지 스펙트로그램을 통해 확인했습니다. 확인 결과 각 악기나 사람의 목소리를 구분할 수 있는 독특한 핑거프린트(finger print)를 확인할 수 있었습니다.

모든 소리가 합쳐진 스팩트로그램도 만들었는데 이 것은 각각의 트랙의 스팩트로그램이 하나로 합쳐진 것과 같았습니다. 결국 사람 목소리를 악기소리로 부터 분리해 내는 작업은 모든 소리가 합쳐져 있는 스펙트로그램에서 사람의 목소리에 해당하는 스펙트로그램을 분리해 내는 작업이었습니다.

연구진은 전체 63곡 중 50곡을 인공신경망의 훈련(학습)을 위해 사용했습니다. 나머지 13곡은 실제 테스트를 위해 남겨두었습니다. 결과적으로 이 인공신경망은 모두 2만 개 이상의 스펙트로그램을 학습하게 되었습니다.

이 인공신경망이 수행하는 작업은 아주 간단합니다. 전체가 믹스된 트랙의 스펙트로그램이 인풋으로 주어지면 거기서 사람의 목소리에 해당하는 부분의 스팩트로그램을 아웃풋으로 내는 것입니다.

이와 같은 머신 러닝 작업은 결국 파라미터값을 조정해 나가는 작업이 됩니다. 인공신경망은 원하는 아웃풋을 내기 위해 조정되어야 할 수십억개의 파라미터값을 갖습니다. 이렇게 많은 파라미터값의 조정은 반복작업을 통해 가능하게 됩니다. 처음에는 랜덤하게 시작하지만 점차 많은 데이터를 분석할 수록 파라미터 값이 점점 안정됩니다.

세팅이 어느정도 안정됐다고 판단된 시점에서 연구진은 13개의 테스트 곡을 입력해 보았습니다. 결과는 매우 인상적이었습니다. 연구진은 음악에서 사람의 목소리를 분리하도록 훈련된 인공신경망이 처음 듣는 새로운 음악에서도 사람 목소리를 분리해 낼 수 있는 것을 확인했습니다. 또 인공신경망 연구에 있어서 이번 연구가 갖는 중요한 의미는 도대체 "보컬" 사운드라는 것이 어떤 것인지를 알았다는 것이다라고도 얘기합니다.

이 연구 결과를 가장 먼저 적용해 볼 수 있는 분야는 노래방 기계입니다. 음악과 노래가 함께 믹스되어 있는 트랙에서 사람목소리 부분만 빼서 노래방 기계에 적용할 수 있기 때문입니다. 그러나 이것은 하나의 예일 뿐, 좀 더 광범위한 응용이 가능합니다.

인공신경망이 머신러닝을 광범위한 영역에서 혁신시키고 있습니다. 얼굴인식이나 사물인식에 있어서도 사람만이 가능한 일이었지만 최근에는 이 역시 기계가 할 수 있는 일이 되었습니다. 그리고 이제는 "칵테일 파티 이펙트" 문제에 있어서도 사람이 우위를 점하기는 어려워 졌습니다.

자료 :  arxiv.org/abs/1504.04658 : Deep Karaoke: Extracting Vocals from Musical Mixtures Using a Convolutional Deep Neural Network


2015년 12월 8일 화요일

[컴퓨터 예술] 일본산 로봇 밴드 Z-Machines


압도적 비쥬얼의 로봇 밴드

일단 이 일본산 로봇 밴드의 비쥬얼이 너무나 압도적이어서 사진부터 몇장 보여드립니다.







로봇, 뮤지션이 될 수 있을까?

지금까지 블로그를 통해 소개드렸던 컴퓨터 예술은 인공지능 측면에서의 접근이 대부분이었습니다. 그러니까 물리적인 모습을 갖춘 형태의 로봇이라기보다는 알고리즘 차원의 소프트웨어였습니다. 그런데 오늘 소개드릴 이 지-머신(Z-Machines)은 완전한 물리적 형태를 갖춘, 그래서 무대에서의 공연이 가능한, 그래서 언젠가는 연예인이 될지도 모를, 아니 될 것만 같은 로봇 아티스트 "Z-Machines" 입니다.

아래 영상을 보시면 지-머신이 만들어 지는 과정을 알 수 있습니다. 앞 부분은 메이킹 스토리 입니다. 실제 연주는 4분 40초 부근부터 입니다.




78개의 손가락과 22개의 피크로 연주하는 로봇 기타리스트

기타리스트 마치(March)는 78개의 손가락과 12개의 피크를 갖고 있고 BPM 1000에서 연주가 가능하다고 합니다. 연주 괴물인 것입니다. 사람의 경우 BPM 130~150정도면 굉장히 빠른 속도입니다. 그런데 BPM 1000이라니요. 지금은 많이 시들해졌습니다만 한참 락이 위세를 떨치던 70~80년대에는 기타리스트 사이에서 속주가 아주 큰 이슈이기도 했습니다. 물론 재즈가 처음 탄생하던 당시에도 재즈 연주자들 사이에 속주 경쟁이 있었습니다. 속주는 당연히 음악의 여러 요소 중 하나에 불과하지만, 인간은 이제 속주 면에서 로봇을 이길 수 없게 됐습니다.

로봇 기타리스트의 속주와 정확성

위 영상의 1분 45초 부분을 보면 기타의 넥 위로 수십개의 손가락이 정렬해 있습니다. 핑거링이라고 하는 주법을 연주하기 위한 장치입니다. 놀라운 것은 로봇이기 때문에 속도에 제한이 거의 없다는 것입니다. 사람으로서는 따라갈 수 없는 속도를 보여줍니다. 게다가 미스터치라는 것은 있을 수도 없는 일입니다. 정확성과 속도가 담보된 연주입니다. 이 처럼 기계적인, 한치의 오차도 없는 연주가 과연 좋은것이냐? 감성적으로 오히려 인간적이지 않은 것 아니냐 하는 질문을 해 볼 수 있습니다.

맞습니다. 그렇기도 합니다. 그런데 인간 연주자들이 스튜디오에서 녹음을 할 때를 떠올려 보겠습니다. 이 때 사람 연주자들은 이왕이면 음정과 박자가 가급적 정확한 연주를 하기 위해 수 십차례 재 연주를 하기도 합니다. 물론 감정도 좋은 연주를 해야 하겠지만 가장 기본이라고 할 수 있는 음정과 박자에 신경 쓰는 것은 사람도 마찬가라는 얘기 입니다. 만일 너무 정확한 것이 문제라면 오히려 기계의 정확성을 95% 정도로 낮춘다면 인간이 느끼기에 인간적이면서도 정확한 연주가 될 지도 모를 일입니다.

위 영상에서 1분 58초 부근에 핑거링 테스트 장면이 나옵니다. 어마어마한 속도입니다. 처음에는 너무 빨라서 거의 하나의 음으로 들립니다만, 속도를 늦추어 갈수록 이것이 8개의 음을 연주하고 있었다는 것을 알게 됩니다. 최고 속도는 8ms였습니다.


22개의 스틱으로 사람보다 4배 빠르게 연주하는 드러머

드러머 아슈라(Ashura)는 22개의 드럼스틱으로 사람보다 4배 빠르게 연주할 수 있습니다. 위 영상에서 1분 55초 부근에 드럼치는 로봇이 나옵니다. 사람은 두 개의 다리와 두 개의 팔로 칩니다만, 로봇은 사실 그럴 필요가 없습니다. 필요하다면 다리 열개, 손 스무개라도 사용할 수 있으니까요. 인간의 한계를 단숨에 뛰어 넘을 수 있다는 것을 보여줍니다. 물론 아직 터치의 감각이 세밀하지 못해 다이나믹의 표현이 부족하고 너무 균일한 세기의 음을 연주하는 것은 아쉬운 부분입니다.


동경대 엔지니어와 뮤지션의 합작품

이 프로젝트는 동경대 엔지니어 켄지로 마츠오(Kenjiro Matsuo)와 스퀘어푸셔(Squarepusher) 라는 이름으로 활동 중인 젠킨슨(Jenkinson)이라는 뮤지션의 합작품입니다. 그 외에도 로봇 디자인, 전자 장치 제어 등의 분야에서 전문 인력들이 참여 하였습니다.

Squarepusher & Z-Machine
-Composed & Produced by Squarepusher
-Producer : Kenjiro Matsuo
-Assistant Producer : Masayuki Noda
-Music Producer : Kenjiro Matsuo
-Robot Design : Naofumi Yonetsuka
-Musical Instrument Design : Kimura & Tatsuo Hayashi
-Electronic Devices and Control System : Kanta Horio

동경대 엔지니어인 켄지로 마츠오(Kenjiro Matsuo)는 이 로봇 밴드가 300키로와트의 전력을 사용하며 스위치가 달린 파워보드를 사기만 하면 누구라도 집에서 이 로봇을 만들수 있다고 얘기합니다.

이 프로젝트에서 음악을 담당한 젠킨슨은 아래의 영상에서 이렇게 얘기 합니다.

"음악을 만들기위해 악기를 연주하는 로봇을 사용하는 것이 나를 사로잡았다. 사람들은 대부분 음악이라는 것은 사람의 손에 의해서 만들어지는 감정적인 것으로 생각한다. 그러나 나는 여기에 동의하지 않는다. 그리고 이 사람들이 틀렸다는 것을 증명하고 싶다. 이 프로젝트는 이러한 생각에 대해 탐험해 보는 아주 훌륭한 방편이다." 





앨범 발표

Z-Machines은 2013년에 동경에서 있었던 "Future Party"에서 데뷔했습니다. 이 공연은 맥주회사의  스폰서 참여로 진행됐는데, 관객들이 맥주병을 머리위로 들면 로봇 밴드가 이에 반응하여 연주 속도를 더 빨리 했다고 합니다.



2013년에는 "Sad Robot Goes Funny"라는 앨범을 내기도 했습니다. 강렬한 외모 만큼이나 강렬한 사운드를 기대할 수도 있습니다만 사운드는 의외로 부드럽습니다. 아마 이것은 사람들의 기대를 깨뜨리기위한 반전 전략인 것 같습니다. 사실은 저도 굉장히 강렬한 사운드를 기대했는데 부드러운 사운드가 나와서 좀 의외이긴 했습니다. 제 개인적으로는 정말 하드한 사운드였다면 더 좋지 않았을까 하는 아쉬움이 남습니다.

iTunes - http://smarturl.it/vrccrm
Bleep - http://smarturl.it/jf6uj7
Amazon - http://smarturl.it/p4oex8
Google Play- http://smarturl.it/sb24mb



로봇의 음악에 감정이 있을까?

로봇이 연주하는 음악에서 감정을 느낄 수 있을지, 이런 음악에서 사람들이 위안을 받고 기뻐할 수 있을지에 대한 논란은 앞으로 한 동안 계속될 것 같습니다. 이것은 누가 그렇다 아니다 주장할 수 있는 성격의 것은 아닙니다. 사람이 만든 예술이라고 하더라도 감상하는 사람의 취향에 따라 선호가 결정되기도 하니까요. 위의 영상들을 보신 분들 사이에서도 각자의 감성에 따라 의견이 갈릴 것입니다. 로봇 연주자의 연주가 이제 막 시작단계라는 점을 생각하면 앞으로 로봇 연주자의 실력의 향상 여부에 따라 이 부분에 대한 평가는 상당히 자주 업데이트 될 것 입니다.


음악 창작의 새로운 가능성

이 로봇이 연주한 음악은 사람이 만든 것입니다. 사람이 로봇이 연주할 것을 가정하고 작곡한 것이죠. 그런 의미에서 앞에서 포스팅했던 인공지능 작곡 프로그램들과는 정 반대의 특징을 보여줍니다. 그 프로그램들은 컴퓨터가 사람이 연주할 것을 가정하고 작곡했으니까요. 그래서 아야무스(Iamus)같은 경우 작곡 규칙에 대한 제약을 거의 두지 않으면서도 사람의 손가락이 다섯 개여서 한 번에 그 이상의 음을 사용하지 않도록 하는 제약을 두었습니다. 그런데 이번 Z-Machines의 경우 78개의 손가락과 22개의 피크를 사용하는 로봇 연주자가 연주할 것을 가정하고 작곡하다 보니 오히려 인간 연주자로서는 연주할 수 없는 경우가 생겼습니다. 다시말하면 물리적으로는 인간의 한계를 뛰어 넘은 것도 작곡할 수 있게 된 것입니다. 인간 작곡가가 인간 연주자의 한계로 인해 하지 못했던 음악적 표현의 한계를 로봇 연주자를 통해 극복할 수 있게 된 것입니다. 물론 세밀하고 다양한 감정 표현에 있어서는 인간 연주자들이 압도적으로 우세하지만 말입니다.

인간과 로봇의 창작 매트릭스

앞으로는 상당히 복잡하게 되었습니다. 경우의 수가 점점 많아 지고 있습니다. 인간 연주자, 인간 작곡가, 로봇 작곡가, 로봇 연주자. 이제 우리는 인간과 로봇이라는 매트릭스를 갖게 되었습니다. 로봇 작곡가가 사람 연주자를 위한 곡을 쓰고, 사람 작곡가가 로봇 연주자를 위한 곡을 쓰는 일은 이미 발생했습니다. 머지 않은 미래에 로봇 작곡가가 로봇 연주자를 위한 곡을 쓰는 날도 올 것으로 보입니다.

인간 예술가와 로봇 예술가의 매트릭스



2015년 12월 6일 일요일

[컴퓨터 예술] 즉흥연주하는 인공지능 Shimon

작곡과는 다른 지능, 즉흥연주

그동안 스스로 작곡하는 인공지능에 대해 몇 차례 소개드렸습니다. 데이비드 코프가 개발한 에밀리 호웰, 도냐 퀵이 개발한 쿨리타, 프란시스코 비코가 개발한 아야무스 등 입니다. 이들 셋의 공통점은 이들이 악보로 출력되는, 그러니까 음악적으로 연주될 모든 음을 확정하여 오선지 위에 그려낸다는 점입니다. 그야말로 전통적 의미에서의 작곡입니다. 이들이 그려낸 음은 연주자에 따라 표현상의 미묘한 차이를 보일 수는 있겠지만, 악보위에 인쇄된 절대 텍스트를 갖게 됩니다.

그런데 오늘 소개드릴 인공지능은 즉흥연주, 그러니까 jam 을 하는 인공지능입니다. 이것은 앞의 세 가지 사례와는 확연히 다른 형태의 인공지능입니다. 에밀리 호웰과 쿨리타가 주어진 텍스트를 학습하고 그 텍스트를 모방하는 형태, 아야무스가 주어진 테마를 무작위로 발전시키는 형태로 확정된 음을 출력하는 방식이라면, 이번에 소개드릴 메이슨 브레튼(Mason Bretan)이 개발한 시몬(Shimon)은 인간이 연주하는 음악을 듣고 그에 맞춰 같이 음악을 연주하는, 그러니까 상대의 연주를 인식하고(cognition) 맥락에 맞게 하나의 음악으로 발전시켜나가는(Improvisation) jam을 하는 인공지능입니다.

Mason Bretan 과 Shimi

사람의 연주를 인지/이해하는 인공지능

아이폰에 탑재된 음성 인식 시스템인 시리(Siri)를 떠올려 보시면 좋을 것 같습니다. 시리는 사전에 프로그래밍 되어 있는대로만 반응하는 것이 아니라 사람이 무슨 말을 하는지, 무엇을 원하는지에 대해 스스로 판단하고 그에 반응하는 음성인식 인공지능입니다.

시몬(Shimon)이 바로 이와 유사한 인공지능입니다. 시몬은 사람의 말 대신 음악의 언어라고 할 수 있는 리듬, 멜로디, 화성 등을 인식하는 것입니다. 사람이 어떤 리듬을, 어떤 화성을, 어떤 멜로디를 연주하는가에 따라 그와 잘 어우지는 음악을 연주하는 것이죠.

이런 것을 음악하는 사람들은 jam이라고 부릅니다. 그런데 사실 밴드를 하는 사람들 중에도 jam을 하자고 하면 부담스러워 하거나 어려워 하는 사람들이 상당히 많습니다. 사전에 약속된 플레이가 아니기 때문입니다. 어떤 곡을 합주하자고 약속해서 그 곡에 대해 미리 학습하여 약속된 플레이를 하는 것과는 다르게 상대방이 어떤 연주를 하는지를 듣고 즉각적으로 반응하며 함께 음악을 발전시켜 나간다는 것은 음악을 하는 사람으로서도 쉽지 않은 일이기 때문입니다.

그런데 시몬이 이를 훌륭하게 해내고 있습니다. 영상에서 보여지는 시몬은 리듬, 멜로디, 화성에 대해 제대로 이해하고 반응하면서 사람과 함께 음악을 발전시켜 나갑니다.


영상을 보시면 일단 사람이 드럼을 치기 시작합니다. 이 드럼의 리듬을 들은 시미(Shimi)라는 이름의 로봇은 서서히 반응을 시작합니다. 그런데 반응을 시작하는 모습이 아주 인상적입니다. 일단 사람 연주의 도입부를 듣고 나서는 살짝 맛배기로 음을 몇 개 내보는 식입니다. 처음의 음 몇개는 이것이 리듬을 연주한 것인지 음가가 있는 멜로디를 연주한 것인지도 모를, 그야말로 로보틱한 소리를 냅니다. 그런데 그 뒤로 사람의 연주를 더 들어가며 점점 우리가 "음악"이라고 알고 있는 것과 상당히 유사한 소리를 내기 시작합니다. 패턴이 있는 베이스를 연주하고 리듬도 연주합니다. 1분 40초 부분 부터는 스스로 드럼 파트도 추가해서 연주를 시작하는데, 이때 드럼을 연주하던 연주자는 드럼에서 기타로 옮겨갑니다. 인공지능이 리듬파트를 맡아주니 이제 드럼을 치지 않아도 되는 것이죠. 연주자가 기타를 친 이후로 부터는 샤이미가 기타의 멜로디 라인을 따라하기 시작합니다. 기타와 같은 현악기 연주에서만 들을 수 있는 주법들도 흉내내가며 솔로 라인을 연주합니다. 그 이후로 사람은 기타에서 키보드로 한번더 자리를 옮기고 샤이미는 마림바 연주까지 더하면서 연주를 마칩니다.

정말 사람의 연주를 이해하나?

사실 이 인공지능이 정말 실시간으로 모든것을 인지하면서 즉흥연주를 해나간 것으로는 보이지 않습니다. 즉흥연주를 했다고 하기에는 약속된 플레이를 한 것처럼 보이는 프레이즈들이 상당히 많이 발견되기 때문입니다. 그럼에도 불구하고 즉흥연주를 했다고 인정할 수 있는 증거들도 많이 있습니다. 일단 시작하는 부분이 그렇습니다. 사람과 짧은 프레이즈를 주고 받으며 음악을 진행시켜나가는데, 이 부분에서 일단 사람이 연주하는 리듬의 템포를 인식한 것으로 볼 수 있기 때문입니다. 상당히 불규칙 하게 들릴 수도 있는 인트로 드럼 연주를 들으며 리듬이 진행되는 전체적인 템포를 인지했다는 것 만으로도 상당한 가능성을 시사합니다.

맨 처음에 사람이 연주한 것은 리듬 뿐인데, 스스로 음가가 있는 베이스를 연주하기 시작했다는 점도 궁금한 점 중 하나입니다. 드럼 라인에 알맞은 베이스 리듬은 인식할 수 있겠으나 과연 어떤 음(조)으로 음악을 시작할 것인지, 화성 진행을 어떻게 할 것인지에 대한 정보가 전혀 없는 상태에서 어떻게 그런 음이 담긴 음악을 연주한 것인지에 대한 궁금증은 남습니다. 이를 알기 위해서는 어떤 알고리즘을 갖고 있는지에 알아야하는데, 이에 대해서는 아래에 약간의 힌트가 있습니다.


샤잠의 또 다른 버전

리듬에 대한 인식은 상당한 수준에 와 있는 것 같습니다. 음악을 찾아주는 샤잠이라는 어플리케이션에 대해 모두 아실 텐데요. 이와 비슷한 알고리즘을 개발한 것으로 보입니다. 사람이 어떤 리듬을 손으로 태핑하면, 그와 유사한 리듬을 가진 곡을 찾아주는 방식입니다.



젊은 공학도 Mason Bertan

굉장히 놀라운 사실이 있는데, 저 영상에서 음악을 연주했던 젊은이가 바로 시몬(Shimon)과 시미(Shimi)를 개발한 주인공이라는 점입니다. 메이슨 브레튼(Mason Bretan)이라는 이 젊은 개발자는 현재 조지아텍에서 박사과정중이라고 합니다.

Mason Bertan

첫 번째 영상은 그의 유튜브 채널에 2015년 1월에 올라온 것인데, 본인 스스로 이 영상에 대해 자세한 설명을 첨부했습니다. 기계의 즉흥연주, path planning, 체화된 인식(embodied cognition) 등을 시연하기 위한 영상이라고 소개하면서, 시미(Shimi)라는 작은 로봇은 음악을 분석한 것에 기초해서 어떻게 음악을 진행할 것인가(how to move)를 알아내고(figure out), 시몬은 고난위도의 음악적 변수와 물리적 제약에 있어 최적화된 창작 알고리즘을 사용하여 사전에 주어진 화성 진행에 따라 즉흥연주를 해나간다고 설명합니다.

인공지능 예술의 발전에 대한 긍정적 확신

또 "What you say"라는 제목은 마일스 데이비스의 "What I say"라는 곡에서 영감을 얻었다고 말합니다. 아마도 이 인공지능이 상대의 플레이를 인식하고 그에 반응한다는 것을 강조하기 위한 제목 같습니다. 마일스 데이비스가 말한 것을(What I say) 시몬이 알아듣고(What you say) 그에 반응한다는 의미를 부여한 것 같습니다. 이 젊은 개발자는 마일스 데이비스와 같은 훌륭한 연주자들은 사람에게만 귀감이 되는 것이 아니라 자신이 개발 중인 인공지능 아티스트들이 도달해야할 궁극의 지표라는 설명도 덧붙입니다. 그러면서 인공지능과 신호처리 등의 기술 발달을 통해 결국에는 기계가 예술적이고(artistic), 창의적이고(creative) 염감을 주는(inspirational) 존재가 될 것이라 믿는다고 얘기합니다.

이 설명을 통해 앞에서 궁금했던 부분에 대해 어느 정도 답을 찾을 수 있었습니다. 그리고 이 젊은 개발자가 가진 아이디어를 응원하게 되었구요. 컴퓨터 공학으로 박사과정에 있는 공학도가 음악에도 상당한 재능을 보인다는 점도 아주 아주 인상적입니다. 드럼, 기타, 피아노 등 다양한 악기를 다룬다는 점도 인상적이지만 각 악기마다 일정 수준 이상의 연주를 하는 점도 매우 인상적입니다. 아마 음악을 즉흥연주하는 인공지능을 개발할 수 있었던 것은 이 젊은 공학도가 가진 특별한 능력 때문일 가능성이 높아 보입니다. 영상을 보면 이 사람은 공학에 대한 이해 뿐만이 아니라 음악에 대해서도 상당한 이해를 하고 있는 사람이 분명하고, 좀 더 높은 음악적 성취를 공학적인 방법으로 이뤄내고자 하는, 공학적인 방법론으로 음악을 해석하고자 하는 시도를 하고 있는 것으로 보이기 때문입니다.

음악과 컴퓨터 공학을 결합시키고 있는 일군의 사람들에 대해서는 다음 포스팅에서 다뤄 보도록 하겠습니다.


**자료
- 메이슨 브레튼(Mason Bretan) 홈페이지 보기
- 조지아텍 센터 포 뮤직 테크놀러지 보기
- 워싱턴 포스트 관련 기사 보기


**관련 글도 함께 보세요**
- 작곡하는 인공지능 아야무스(Iamus) 보기
- 작곡하는 인공지는 쿨리타(Kulitta) 보기


2015년 12월 4일 금요일

[컴퓨터 예술] 색을 듣는 남자, 사이보그가 되어보세요!

색을 듣는 남자 Neil Harbisson

색을 구별하지 못했던 남자

예술가로 활동하고 있는 닐 하비슨(Neil Harbisson)은 색을 전혀 구별하지 못하는 상태로 태어났다고 합니다. 세상이 온통 회색빛으로 보였다고 하네요. 그런데 2003년에 어떤 프로젝트를 시작하면서 전자장치를 통해 색을 "들을" 수 있게 됐다고 합니다.

색을 듣게 된 남자

색으로 부터 느껴지는 특정 주파수(음파)를 통해 색을 들을 수 있게 됐고, 색을 듣는 것이 점점 익숙해짐에 따라 이제는 색을 완전히 느끼게 됐다고 합니다. 꿈에서도 색을 느낄 수 있는 정도가 됐다고 하네요. 강연 중에 여러 가지 사물의 색을 음파를 통해 구분하는 장면이 나오는데요. '이것은 보라색'의 소리입니다. 이것은 '더러운 양말(노란색)'의 소리입니다와 같이 색을 "보는" 사람들과는 전혀 다른 방법으로 색을 느끼고 있습니다.

TED에서 강의를 하는 오늘 같이 기분 좋은 날에는 "C 메이저" 색의 옷을 입고 장례식 처럼 뭔가 슬픈 일이 있을 때는 "B 마이너" 색의 옷을 입는다고 말합니다. 일반적으로 사람들은 기분 좋을 때 "밝은"색 계열을 입는다고 말하고 슬픈일이 있을 때 "어두운" 색 계열을 입는 다고 말합니다만, 색을 듣는 강연자는 음악(소리)에서 사용하는 화성이나 화음을 통해 자신의 색에 대한 느낌을 표현합니다. 기쁠때는 메이저 코드, 슬플 때는 마이너 코드와 같이 말입니다.

이제는 음식을 먹을 때도 음식의 색을 느낀다고 합니다. 그러면서 이렇게 표현합니다. 내가 좋아하는 노래를 먹는다구요. 레이디가가를 샐러드로 먹고 라흐마니노프 콘체르토를 메인디시로 먹는다고 표현합니다. 음식의 색을 느낄 때 그것이 소리(음파)로 들리는 것을 이렇게 표현한 건데 시인이 따로 없습니다.


초상화를 듣는 남자

그리고 이제는 사람을 볼 때도 노래가 들린다고 얘기합니다. 어떤 사람은 굉장히 잘 생겼어도 소리는 엉망으로 들리고 어떤 사람은 잘생기진 않았어도 음악은 굉장히 아름다운 경우가 있다고 설명합니다. 이건 마치 사운드 초상화 같은 것이라고 설명합니다. 즉 초상화를 그리는 게 아니라 초상화를 듣는 것이죠. 실제 사람들을 볼 때 들리는 소리를 들려주는데, 굳이 음정으로 따지자면 음정 하나 또는 음정 두개 정도가 겹쳐 들리는 정도 입니다. 이런 정도의 소리 정보로 색을 구분하려면 사실 음정의 높낮이에 굉장히 민감해야 하고 또 이런 음정을 통해 일관성 있게 소리를 구분해 내려면 절대 음감을 가지고 있어야 할 것 같다는 생각도 듭니다. 절대음감이 아니라면 소리를 들을 때 마다 기준 점이 바뀌어서 어제는 440hz에서 느껴졌던 노란색이 오늘은 550hz에서 느껴질 수도 있을 테니까요.

색을 듣는 것에서 그치지 않고, 그렇게 들려지는 소리를 다시 색으로 표현하는 작업도 하고 있다고 합니다. 노래를 들으면서 느끼지는 주파수를 다시 색으로 표현 하는 것이죠. 모짜르트의 음악을 들을 때 느껴지는 색과 저스틴 비버의 색을 들을 때 느껴지는 색의 차이를 그림으로 표현한 것이 재미있습니다.  



사이보그가 되어 보세요!

2년 전부터는 사람들이 감각을 인지하는 것을 돕기 위해 "사이보그 파운데이션(Cyborg Foundation)"을 설립하고 운영중이라고 합니다. 기술을 이용해 사람들이 감각을 느낄 수 있도록 돕는 것을 목적으로 한답니다. 지식이라는 것도 결국 우리의 감각기관을 통해 습득하게 되는데, 감각기관을 확장한다는 것은 결과적으로 지식을 넓히는 것이라고 설명합니다. 참 맞는 말입니다. 결국 보고 듣고 만지고 하는 행위들로 부터 우리는 지식을 습득하게 되니까요.

모바일폰을 위한 어플리케이션을 만드는 것 보다는 우리 몸을 통한 감각기관을 넓힐 수 있는 어플리케이션을 만들면 더 좋지 않겠느냐는 제안도 합니다. 그러면서 우리가 사는 이번 세기는 그런 세상이 될 것이고 자신의 감각기관을 기술을 통해 확장시켜나가는 사이보그가 되면 어떻겠냐고 제안합니다.

너무나 멋진 발상을 너무나 편안한 분위기에서 센스 넘치게 전달하는 모습이 보기 좋습니다. 무엇보다도 저자의 밝은 얼굴과 생동감 넘치는 목소리도 듣기 좋구요.

2015년 12월 3일 목요일

[컴퓨터 예술] 뇌섹남 Ge Wang이 말하는 컴퓨터 음악

이 블로그를 통해서 인공지능의 창작 가능성에 대해 포스팅하고 있는데요. 그러다보니 주로 사람의 역할을 대신할, 또는 대체할 가능성이 엿보이는 관점에서 글을 쓰게 됩니다. 그러나 세상에는 역시 다양한 관점을 가진 사람들이 더불어 살아가기 마련이죠.

그런 의미에서 오늘은 컴퓨터 프로그래머이자 아티스트로도 볼 수 있는 Ge Wang의 영상을 소개드리고자 합니다.





Ge Wang 은 스탠포드 대학교의 음악과 음향에 관한 컴퓨터 연구실(Stanford's Center for Computer Research in Music and Acoustics) 소속의 어시스턴트 교수라고 합니다. 컴퓨터 음악, 모바일 음악, 소셜 음악, 랩탑 오케스트라에 관련된 인터랙티브 소프트웨어 디자인과 프로그래밍 언어가 주요 연구분야이구요, 컴퓨터 사이언스와 음악이 겹치는 부분에 대한 교육에도 관심이 있다고 합니다. ChucK 오디오 프로그래밍 랭귀지의 저자이자 스탠포트 랩탑 오케스트라(SLOrk)와 스탠포드 모바일폰 오케스트라(MoPhO)의 설립자이자 디렉터이기도 합니다. 또 Smule(소셜 음악 앱을 만드는 회사, 현재 1억명 이상의 사용자가 있음)의 공동 창업자이자 iPhone의 오카리나와 매직피아노를 만들기도 했습니다.


Chuck 알아보기

스탠포트 랩탑오케스트라(SLOrk) 알아보기

스탠포드 모바일폰 오케스트라(MoPhO) 알아보기

Smule 알아보기


사람 자체가 워낙 다이나믹하고 릴랙스하고 유머러스하고 지니어스해서 참으로 매력적입니다. 게다가 갑빠도 잘 다듬어져 있구요. 엄친아+님좀짱+귀요미+뇌섹남 스타일 입니다. 컴퓨터 사이언스하면 왠지 골방에 쳐박혀 혼자서 끙끙대고 연구할 것 같은 이미지인데, 정 반대로 자신이 연구하는 분야를 통해 세상의 많은 사람들을 연결시키고 그것을 통해 공감의 가치를 만들어 냈습니다.

Ge Wang = 엄친아+님좀짱+귀요미+뇌섹남

사실 이 분이 사용하는 용어 자체가 모두 처음 접하는 개념입니다. 물론 모두 다 이분이 고안해 냈기 때문이겠지만요. 랩탑 오케스트라, 모바일폰 오케스트라. 참 재미집니다. 그리고 이 모든걸 아우를 수 있는 소셜뮤직이라는 개념도 제시하구요.

영상이 좀 길긴 하지만, 여러가지 다양하고 재밌는 화면을 많이 볼 수 있으니까 꼭 끝까지 한번 보시기 바랍니다.

영상의 맨 마지막 부분에서 멋진 멘트를 아무렇지도 않게 내뱉으시고 담담히 퇴장하시네요.

"지금 여러분이 들은 것이 컴퓨터 음악일까요? 네 맞습니다. 컴퓨터가 없었다면 할 수 없는 음악이었으니까요. 그러나 동시에 인간이 만든 것이기도 합니다. 제가 왜 이런것을 하고 있는지에 대해 생각하게 됩니다. 그리고 여기서 다시 맨 처음 질문으로 돌아가게 됩니다. 컴퓨터 음악이라는 것이 도대체 무엇일까요? 제게 있어서 컴퓨터 음악이라는 것은 사실 컴퓨터하고는 크게 상관이 없습니다. 오히려 사람에 관한 것입니다. 어떻게 기술을 이용할 것인가 하는 문제죠. 우리가 생각하는 방법을 바꿔서 결국 음악을 만드는데 도움을 받기 위해서 기술을 이용하는 것이겠죠. 또한 음악과 기술을 이용해서 사람들을 서로 연결하기 위함이기도 하구요. 이것이 제가 생각하는 컴퓨터 음악입니다." 


아 쩐다.