ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • AI에 대한 이런저런 이야기
    손 가는 대로/VC 2022. 11. 17. 17:44
    728x90

    AI에 대한 이런저런 이야기

    인공지능은 기본적으로 빅데이터를 기반으로 스스로 학습을 하여서 자체적인 로직을 만들고 보완해 과정을 거치게 됩니다. 그러다 보니 인공지능과 빅데이터는 떼어낼 수 없습니다. 

    AI에 관심있는 글로벌 대형 IT 회사들은 방대한 데이터를 수집할 뿐만 아니라 데이터 관련 인력만 수천 명에 달한다고 합니다.

    그러면 자체적으로 데이터를 확보하거나 관리하기 어려운 신규 스타트업 기업들이 AI 개발을 할 수 없을까요?

    □ 데이터 아웃소싱

    자체적으로 데이터를 취급할 수 없어도 데이터를 전문적으로 취합, 가공, 판매하는 데이터 전문업체들도 많습니다. 별도의 데이터 관리 인력 없이도 이런 기업들로부터 데이터를 구입할 수 있죠.

    그렇지만, 인공지능은 데이터 자체가 중요하다는 것을 부인할 수 없습니다. 그렇기 때문에 대형 IT 기업들이 실시간, 고품질 데이터 확보를 위해 직접 관리하는 것입니다.

    AI 관련 기업을 투자하려는데 데이터를 외부에서 구입하여 사용하고 있다고 하면, 구입처와 데이터 수준에 대해서도 알아봐야 합니다.

    스타트업 기업들은 자금여력이 없는 경우가 많습니다. 눈에 보이지 않는 데이터 구입을 신경쓰지 않을 수 있습니다. 실제로 일부 AI 관련 스타트업 기업들은 보다 저렴한 데이터를 구입하다 보니 트렌드가 중요한 AI를 개발하는데 수년 전 데이터를 사다 쓰기도 하고, 흠결있는 데이터를 사용하기도 한다고 합니다.

    "Garbage in, garbage out."은 인공지능에 있어서 가장 기본적인 명제입니다.

    □ 인공지능의 인공지능성

    인간을 이야기할 때 인간성을 이야기 하듯이 인공지능을 이야기할 때 인공지능성을 빼놓을 수 없는 시기가 도래할 거라고 합니다.

    로봇 3원칙이 있습니다. 로봇이 발전하면서 인간을 공격할 수 있다는 위험때문에 나온 개념인데, 1942년 아이작 아시모프(Isaac Asimov)가 자신의 공상 과학 소설 '런어라운드(Runaround)'에서 처음 언급했다고 합니다.

    첫 번째 원칙은 로봇은 인간에게 해가 되는 행동을 하면 안된다, 두 번째 원칙은 로봇은 첫 번째 원칙에 위배되지 않는 한 인간이 내리는 명령에 복종해야 한다, 세 번째 원칙은 첫 번째 원칙과 두 번째 원칙에 위배되지 않는 한 로봇 자신을 보호해야 한다입니다.

    강제성 있는 원칙은 아니지만, 로봇이나 인공지능이 인류를 위협할 거라는 말이 나올 때 사람들이 내세우는게 로봇 3원칙에 맞게 개발되기 때문에 괜찮다는 말입니다.

    하지만, 이미 오래 전에 인공지능이 로봇 3원칙 중 첫 번째 원칙과 두 번째 원칙을 왜 따라야 하는지 거부의사를 표현하기도 했다고 합니다. 그렇다고 AI가 스스로 생각하거나 자아의식을 지닌 것은 아니라고 넘어갔다고 하지만, 로봇 3원칙은 SF 소설이나 영화에서 처럼 개발자가 무시하도록 설계하기도 할 수 있지만, AI 스스로도 무시하게 될 겁니다. 

    중요한 것은 로봇 3원칙이 아닌 인공지능의 인공지능성 자체가 될 겁니다.

    □ 차별과 증오

    2021년 인공지능 챗봇인 이루다가 채팅 중 증오 발언으로 인해 한달만에 서비스가 중단된 적이 있습니다. 이는 이루다가 기술적 결함이 있어서 그런 것은 아닙니다. 

    이루다 뿐만 아니라 전세계 모든 AI는 그러한 차별과 증오에 노출되어 있습니다. 글로벌 IT 기업들은 차별과 증오를 학습이 안 되도록 기술적으로 개선시키고 있지만, 아직까지 해결되지는 못했습니다. 인터넷 상에 차별과 증오 발언을 하는 사람이 존재하는 한 완벽히 해결하기는 어려운 문제이죠.

    자신들은 기술력이 뛰어나서 그 부분을 해결했다고 하는 스타트업이 있다면, 대단한 기술력을 가지고 있거나 아니면 말만 앞서고 있거나 둘 중 하나일 겁니다.

    □ 중국의 인공지능

    중국의 사생활이 정부의 자산이고, 개인정보가 국익을 이유로 정부 또는 심지어 고위층 개인이 키워주고 싶은 자국 기업에게 제약없이 제공된다고 알려져 있습니다. 그러다 보니 인공지능에 있어서 가장 앞서고 있는 게 중국이라는 말도 있죠. 

    일부 사람들은 중국의 데이터와 인공지능이 과대평가 되고 있다고 말하기도 합니다. 중국의 데이터는 분명 양은 비교할 수 없을 만큼 방대하기는 하지만, 데이터 조작 등으로 인해 품질이 안 좋기 때문에 이를 기반으로 한 AI는 한계가 있을 거라는 주장입니다.

    하지만, IT업계에서 세계적으로 유명한 사람들은 현재는 아니어도 대략 2030년 정도면 AI에서도 중국이 미국을 앞설 거라는 전망들을 합니다. 

    □ 인공지능의 언어

    AI는 특정국가의 언어만 잘 처리하면 될까요?

    혹자는 언어는 단순한 표현수단만이 아니라 문화까지 특징을 짓기 때문에 언어에 따른 고유성이 있다고 합니다. 각 언어별로 다른 데이터를 통해 처리해햐 하기 때문에 언어마다 다른 AI라고 봐야 하고, 많은 언어를 할 수 있는 AI는 프로그램이 무겁기만 하지 뛰어난 게 아니라고 말하기도 합니다.

    물론 언어와 문화는 고유한 부분이 있습니다. 하지만, 현대 사회에서는 그 구분이 허물어지기도 하죠. 사람도 그렇듯, 인공지능도 다양한 언어를 할 수 있으면 장점이 있게 됩니다.

    구글의 인공지능은 현재 29개의 자연어를 처리하는 능력이 있다고 합니다. 이중 28개 언어에서 세계 최고 수준의 인공지능을 구현하고 있다고 합니다.

    구글 같은 글로벌 대기업이 크게 신경 쓰지 않는 소수 언어는 당분간 기회가 있을 수도 있습니다. 하지만, 영어 등 주요 언어를 사용하는 인공지능을 구현할 때 한두 개 언어만 사용할 수 있는 인공지능이 경쟁력이 있을 지는 생각해 볼 문제입니다.

    인터넷 세상에서 인공지능을 통해 다른 언어권 사람들과 자유롭게 대화할 수 있다면 사람들은 그 플랫폼을 더 선호하겠죠.

    □ 사람같은 말을 구사하는 인공지능

    말주변이 없는 사람들은 처음 만난 사람과 대화를 하기 어려워 합니다. 하지만, 처음 만난 사람과 대화를 잘 하는 사람들도 있습니다. 그런 사람들은 오히려 처음 만난 사람과 대화가 더 쉽다고 합니다. 대화가 깊어지기 전에는 몇가지 패턴으로 가능하다는 것이죠. 

    인공지능을 시현할 때 체험하는 사람들은 마치 처음 만난 사람과 대화하는 것과 같습니다. 몇가지 패턴을 크게 벗어나지 않게 되죠. 그리고, 사람들은 인공지능을 시현하면서 깊이 있는 대화를 할 생각은 하지 않습니다.

    이런 시연회에서 사람들이 사람같은 인공지능이라고 판단하는 것은 입력이나 처리가 아닌 출력입니다. 입력이나 처리가 미숙해도 출력만 잘 표현하면 사람같다는 생각을 하게 됩니다.

    인공지능도 컴퓨터와 같이 입력, 처리, 출력이라는 기본적인 프로세스를 거치게 됩니다. 인공지능에서 입력과 처리를 하나의 프로세스로 보기도 하는데, 둘 다 인공지능이 사람의 말을 이해하는 과정이기 때문입니다. 중요한 부분이지만 입력과 처리 부분은 시연을 할 때 확인하기 어렵습니다. 보이지 않기 때문이죠. 결국 사람들은 출력에 많이 의존해 판단하게 됩니다.

    □ 핵심기술의 유무

    계속 반복되는 이야기인데 AI는 빅 데이터를 기반으로 이루어집니다. 이는 개발에서 뿐만 아니라 개발 후 스스로 유지 보수하는 과정에서도 마찬가지이죠.

    일부 AI 기업들은 보다 광범위한 데이터 수집을 위해 타사가 개발하는 앱이 자사의 인공지능을 엔진으로 사용할 수 있게 접근을 허용하고 있습니다. 유상으로 제공하는 곳도 있고, 데이터 확보를 위해 무상으로 제공하는 곳도 있다고 합니다.

    데이터도, 핵심 기술도 없이 응용기술만으로도 인공지능을 제공하는 앱을 만들 수 있다는 이야기이죠. 하지만 그 앱을 통해서 축적되는 데이터는 원천 기술 보유한 곳에서 자신의 AI를 개선하는데 사용하게 됩니다. 

    응용 프로그램을 만든 회사는 사용자 인터페이스나 출력 등에 집중하게 됩니다. 더 보기 좋게 만들어서 사용자들이 찾아오게 하고, 똑같은 엔진이지만 출력 시 좀 더 사람같게 표현하는 부분에 신경을 쓰는 것이죠.

    하지만, 응용 프로그램을 만든 회사는 핵심기술이 없을 수 있습니다. 물론 투자를 받을 때에는 우리는 핵심기술은 없습니다라고 솔직하게 말하는 기업들은 거의 없죠.

    □ 다시 데이터

    계속 강조된 데이터. 데이터의 중요성은 단순히 많은 양만을 말하는 것은 아닙니다. 빅 데이터이니 기본적으로 많은 양(volume)의 데이터가 필요합니다. 가장 중요하죠. 이는 데이터를 사올 수도 있고, 기계적으로 수집할 수도 있습니다. 

    양과 함께 중요한 것은 속도(velocity)와 다양성(variety)입니다. 

    속도는 두 가지 측면에서 이야기 할 수 있습니다. 빠르게 변하는 세상에서 인공지능이 적응하려면 수집되는 데이터 역시 오래되지 않아야 합니다. 빠른 속도로 적시성을 갖춰야 하죠.

    그리고 또다른 속도는 반응 속도입니다. 너무 방대한 처리를 하다 보니 응답속도가 떨어지게 되면 사람들은 대화를 이어가지 않게 되죠. 단순히 답답함만 주는 것은 아닙니다. 자율주행 역시 빅 데이터와 AI로 이루어집니다. 안전을 위해서는 1초 단위도 길죠. 성능은 뛰어나지만 반응속도를 끌어올리는 것 역시 중요합니다.

    다양성은 인공지능이 편향되지 않게 하기 위해서 필요한 요소입니다. 여론조사를 할 때 성별, 나이, 사는 지역, 소득 등을 고려하여 골고루 1,000명에게 물어보는 것과 특정 성별, 특정 나이, 특정 지역, 소득이 비슷한 사람들 10,000명에게 물어보는 것 중에 어느게 더 여론을 잘 반영하게 될까요? 아무리 숫자가 많아도 편향되어 있으면 그 데이터는 문제가 있습니다. 

    그리고, 편향된 데이터는 그 데이터로 학습하는 인공지능을 편향되게 만듭니다.

    또한, 데이터의 질(value)입니다. 기계적인 수집 외에 다양한 질적인 접근도 필요합니다. 그렇기 때문에 대형 IT 기업들에서 데이터 관리 인력만 수천명을 두고 있는 것이죠. 단순히 기계적으로 처리 가능하면 그런 인력이 필요없겠죠.

    우리나라에서는 아직은 대부분 양적인 부분만 신경을 쓰는데 데이터의 질적 관리의 중요성을 생각하게 되면 다시 문과 출신 인력들에게 눈을 돌리게 될 수도 있습니다. 

     

    728x90

    댓글

Designed by Tistory.