경제신문 스크랩 (2021.3.9)
헤드라인
"AI 언어 97%가 영어…한국어 모델 만들 'K-연합군' 절실"
기사 링크
http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=001&oid=015&aid=0004509893
본문
한국의 AI 혁명가들
(6) 네이버 하정우 AI LAB 소장·성낙호 Biz AI 책임리더
“GPT-3와 같은 글로벌 인공지능(AI) 언어 모델에 한국어가 차지하는 비중은 소수점에 불과합니다. 해외 기업들이 구축해 놓은 모델에 종속된다면, 머지않아 국내 전 산업계가 타격을 받을 것입니다.”
지난달 18일 경기 성남시 네이버 그린팩토리에서 만난 하정우 네이버 AI LAB 연구소장(44), 성낙호 네이버 클로바 CIC Biz AI 책임리더(42)는 네이버의 AI 개발을 이끄는 최전선 지휘관이다. 업계와의 선의의 경쟁에 몰두해 있을 법한 두 ‘장수’ 입에선 ‘연합’ ‘동맹’이란 단어가 자주 흘러나왔다. 이들은 “한국의 AI 생태계 조성을 위해선 카카오든 누구든 모두와 협업할 수 있다”며 글로벌 기업에 맞설 ‘K-연합군’이 필요하다고 강조했다.
논문 실적 1위·슈퍼컴까지 보유
사내독립기업 클로바 CIC와 지난해 이곳에서 분리된 AI LAB은 현 네이버 AI 연구의 핵심 조직이다. 연관된 인력 수는 대외비다. 업계에선 한국과 일본을 포함해 1000명 정도일 것으로 추산한다. 두 리더는 전체 AI 연구의 현장을 책임지고 있다.
독특한 성과지표(KPI)는 네이버 AI 조직의 특징이다. 바로 정규 논문 발표 횟수다. 네이버는 지난해에만 정상급 AI 관련 학회에서 43개의 논문 발표 실적을 올렸다. 경쟁사 카카오의 두 배 수준으로, 국내 최대 규모다. 올해는 벌써 논문 19개를 발표했다.
회사 차원의 투자와 관심이 있었기에 가능한 일이다. 네이버는 지난해 10월 AI 연구를 위해 700페타플롭(PF·초당 1000조 번 연산)급 성능의 ‘슈퍼컴퓨터’를 사들였다. 국내 기업 최초 사례다. 슈퍼컴은 구축에만 수백억원이 드는 것으로 알려져 있다. 하 소장은 “네이버의 최근 5년간 매출이 4조~5조원 규모인데, 이 중 25%가 연구개발(R&D)에 사용되고 있다”며 “R&D의 핵심 투자가 AI에 몰리고 있어 장비와 연구 실적의 기반을 닦을 수 있었다”고 소개했다.
한국어 AI 모델 구축에 힘 합쳐야
국내 최고 수준의 인력과 제반 인프라를 갖췄지만, 두 책임자의 어투엔 근심이 가득했다. 글로벌 AI 기업들과의 격차가 잘못하면 ‘기술 종속성’으로 귀결될 수 있다는 우려다.
통상 AI는 데이터를 입력받으며 학습하고 성장한다. 하지만 데이터의 근간이 되는 글로벌 인터넷 문서와 출판물 자료 등 데이터의 60% 이상이 영어로 돼 있다는 것이 문제다. 한국어는 해외 기업들의 AI 언어모델에서 사실상 학습되지 못하고 있는 것이다.
성 리더는 “AI 역사상 최강의 자연어 처리 인공지능으로 평가받고 있는 오픈AI사의 GPT-3 API(프로그램 언어 형식)를 분석해보면, 97%가 영어고 0.01%가 한국어일 정도로 언어적 편향성이 심각하다”며 “애초에 인터넷상에 한국어 데이터가 0.6%밖에 안 되니 벌어지는 현상”이라고 말했다.
네이버가 한국어 기반의 ‘초거대 AI’를 목표로 삼은 것도 이 때문이다. 100억 개의 변수도 거뜬히 처리하는 고도화 모델이 목표다. 하 소장은 “이미 AI는 세계 각국의 국가 생산성을 뒤바꿀 정도로 진화했기 때문에 AI 주권을 수호한다는 마음으로 누군가가 개발에 나설 필요가 있다”고 강조했다.
이를 위해 네이버는 KAIST, 서울대 등 학교와의 산학연계도 강화할 예정이다. 그는 “오픈AI를 넘어서는 게 목표”라고 했다.
ESG까지 챙기는 AI 개발 중
K-연합군을 구상 중인 네이버는 최근 다양한 AI 성공사례를 내놓고 있다. 향후엔 환경(E)·사회(S)·지배구조(G) 측면을 충족하는 AI 기술까지 내놓을 예정이다.
네이버의 AI 기술력은 코로나19 사태와 맞물리면서 뜻하지 않게 부각됐다. 클로바CIC가 개발한 ‘클로바 케어콜’은 음성인식 기술과 자연어 처리 기술로 가상의 전화 상담사를 만들어냈다. 성 리더는 “코로나 사태에서 접촉자 확인을 사람이 일일이 진행할 수 없자 AI콜이 널리 쓰였다”고 말했다. ‘클로바더빙’과 같은 AI 기반 음성 합성기는 학교 선생님들의 호응을 얻었다. 비대면 교육 수요를 타고 ‘붐’이 일었다.
네이버는 다음달 대형 AI 콘퍼런스 개최를 기획하고 있다. AI 분야 성과와 향후 비전을 공유하고, 함께할 기업과 학계 인사들의 중지를 모으는 자리다. 독거노인, 소상공인을 위한 AI 기술 해법 등 사회적 역할에 대한 비전도 준비하고 있다. 하 소장은 “AI의 편향성과 신뢰 가능성의 문제는 다시금 ‘AI 겨울’을 부를 수 있다”며 “국내 기업들과 학교가 모여 지속 가능한 성장을 도모해야 한다”고 강조했다.
본문의 근거
1. 글로벌 인공지능(AI) 언어 모델에 한국어가 차지하는 비중은 소수점에 불과
2. 네이버의 정상급 AI 학회 논문 실적 (국내 최대 규모, 경쟁사의 두 배 수준)
2020 : 43개 발표
2021~ : 19개 발표
3. 네이버는 지난해 10월 AI 연구를 위해 700페타플롭(PF·초당 1000조 번 연산)급 성능의 ‘슈퍼컴퓨터’를 구매 (국내 기업 최초 사례, 슈퍼컴 구축에 드는 비용은 수백억원 규모)
4. 네이버의 최근 5년간 매출(4조~5조원)의 25%가 연구개발(R&D)에 사용되고 있음
5. 글로벌 인터넷 문서와 출판물 자료 등 데이터의 60% 이상이 영어로 돼 있음
6. 오픈AI사의 GPT-3 API : 97%가 영어, 0.01%가 한국어 → 언어적 편향성 심각
7. 인터넷상 한국어 데이터 비율 : 0.6%
추가 조사할 내용 또는 결과
1. openAI의 GPT-3
- What : 딥러닝을 이용해 인간다운 텍스트를 만들어내는 자기회귀 언어 모델
- 수행 가능한 작업 : 각종 언어 관련 문제풀이, 랜덤 글짓기, 간단한 사칙연산, 번역, 주어진 문장에 따른 간단한 웹 코딩
- 유료 (마이크로소프트 독점 공급)
- 한계점 :
a) 사전학습에 필요한 비용(약 50억원 이상), 시간이 너무 방대하고 활용하기도 쉽지 않다
b) 현실 세계의 물리적 상식을 잘 모른다. (글로만 학습했기 때문)
c) 모든 분야에서 뛰어난 것은 아니다. (주어진 데이터가 적을수록 성능이 크게 떨어짐)
d) 새로운 정보를 수용하기 어렵다. (기억력이 없음)
e) 주어진 단어에 대해 통계적으로 가장 어울리는 다음 단어를 예측하는 방식으로 학습되었기 때문에 AI가 '이해하는 것'은 아니다.
2. 네이버 클로바(Naver Clova)
1) 클로바 보이스
2) 클로바 케어콜
3) 클로바 AI 고객센터 솔루션
적용할 점 (현직자에게 할 질문)
1. 현업에서 GPT-3 API를 많이 쓰는 편인가?
2. 만약 쓴다면/쓰지 않는다면 그 이유는? (접목시키기엔 아직 수준이 낮다든지, 사용 요금이 너무 비싸다든지)
3. AI 중에서도 현재 비즈니스 현장에서 어떤 파트가 가장 핫한지 (ex. 영상처리, 자연어처리 등)
연관기사 링크
네이버-성남 케어콜, 3개월간 '코로나' 단 한건 놓쳤다
'경제신문 스크랩' 카테고리의 다른 글
[경신스] "디지털 퍼스트!" 외친 사장님, 회사 이전 땐 풍수지리 본대요 (0) | 2021.03.11 |
---|---|
[경신스] [단독] 쿠팡 로켓배송에 맞서…이마트, 네이버 올라탄다 (0) | 2021.03.11 |
[경신스] "네이버 쿠팡서 팔았으면, 네이버 쿠팡이 책임져라"…입점업체 잘못도 피해보상해야 (0) | 2021.03.08 |
[경신스] KB국민은행이 쏘아올린 공, '슈퍼앱'은 대세인가 (0) | 2021.03.07 |
[경신스] AI 무장한 토종 에듀테크 '줌' 밀어냈다 (0) | 2021.03.05 |