본문 바로가기
IoT, AI

AI 기술의 악용 - 음성 변조 사기 증가

by penguinee5 2023. 4. 3.
반응형

커지는 AI기술 악용 우려 

음성 변조 사기에 대한 이야기들이 갈수록 증가하고 있습니다.  보이스 피싱도 피하기 힘든데 이제 목소리까지 똑같이 들리면 정말 피하기 어려운 일들이 될 것 같습니다. AI 기술이 발전하면서 아울러 악용되는 사례들도 점점 늘어나고 있어 걱정입니다. 관련된 기술들과 사례들을 정리해 보고 어떻게 대응할수 있을지 알아보려 합니다. 

"딥보이스 사기 전화가 오면요? 검찰 직원들도 '일단 끊는 방법밖에 없지 않겠냐'고 하던데요."

김경화 대검찰청 음성분석실장(감정관·언어학 박사)은 지난 10일 머니투데이 인터뷰에서 '인공지능(AI)으로 합성·변조된 목소리를 진짜 목소리와 구분하기가 정말 힘드냐'는 질문에 이렇게 말했다.

딥보이스 기술


미국, 2022년 전화 사기로 1,100만 달러 피해 

미국의 워싱턴포스트(Washington Post)는 사람의 목소리를 면밀히 시뮬레이션하도록 설계된 AI 모델을 활용한 음성 변조 사기가 증가했다고 보도하였음. 

정교하고 빠르게 진화하는 AI 음성 생성 소프트웨어를 사용하면 몇 문장을 가지고 사람의 목소리를 생성하는데 단지 3초밖에 걸리지 않음. 

워싱턴포스트는 AI 음성 변조를 활용한 전화 사기는 노인들이 주로 표적이 되며, 사기꾼들이 설명하는 긴급 상황이 믿기지 않지만 목소리가 진짜라고 느껴지면 사기라고 감지하기가 어려워져 피해가 발생한다고 보도함. 

미국의 한 부부는 AI가 생성한 아들의 목소리를 통해 미국외교관이 사망한 교통사고에 연루된 어법적 비용이 필요하다고 통화하였음. 아들과 통화한 것이라고 생각한 부부는 비트코인 단말기를 통해 사기꾼에게 15,000달러 (약 1,980만 원)를 보냈음 

미국연방거래위원회(FTC, Federal Trade Commission)에 따르면 사기꾼에 의해 발생하는 사기는 미국에서 매우 일반적임. 

딥보이스 사기 전화


2022년에 보고된 가장 빈번한 유형 사기는 사칭 사기였음. 

친구나 가족을 사칭한 사람에게 피해를 입었다고 접수된 36,000건의 신고 중 5,000명 이상의 피해자가 전화를 통해 사기를 당했음. 이들은 1,1000만 달러(약 145억 2,770만 원)를 사기당했다고 보고됨. 

이러한 사칭 사기는 전 세계 어디에서나 실행될 수 있기 때문에당국이이를단속하고 증가추세를 역전시키는 것은 매우 어려움. 통화추적, 사기꾼식별 및 자금회수가 어려울 뿐만 아니라 사기꾼이 다른 국가에서 활동하는 경우 사건을 조사할 담당 기관을 결정하는 것도 어려움. 

어떤 기관이 조사해야 하는지 결정된다 해도 기관들은 증가하는 사칭 사기를 처리할 준비가 미흡한 경우가 많음. 미국연방거래위원회의 윌 맥슨(Will Maxson) 부국장은 워싱턴포스트와의 인터뷰에서 AI 음성 변조 사기에 대한 국민들의 인식을 높이는 것이 현재 소비자를 위한 최선의 방어책일 가능성이 높다고 하였음 


AI 음성생성 기술의 개발과 채택 

코에리케스트(Koe Recast)라는 새로운 AI 도구는 최대 20초의 음성을 애니메이션 캐릭터, 깊이 있는 남성 내레이터, ASMR 속삭임 등 다양한 스타일로 변환할 수 있음. 코에리케스트는 사람들이 줌(Zoom) 및 디스카드(Discord)와 같은 다른 앱을 사용할 때 실시간으로 음성을 생성할 수 있도록 하는 것을 목표로 개발되었음. 코에리케스트의 웹사이트에서 제공되는 여러 데모에서는 메타(Meta)의 CEO 마크저커버그(Mark Zuckerberg)가 여성의 목소리, 깊은 남성 내레이터 목소리, 고음의 애니메이션 목소리로 증강 현실에 대해 이야기하는 영상 클립을 보여줌. 

  • Koe Recast는 일본 회사인 Koe에서 개발한 AI 기반 음성 복제 소프트웨어입니다. 이 소프트웨어는 딥 러닝 기술을 사용하여 사람의 음성을 분석하고 복제하여 사용자가 원래 화자와 같은 음성을 생성할 수 있도록 합니다.

Koe Recast는 개인화된 음성 도우미 생성, 비디오용 음성 해설 생성, 맞춤형 텍스트 음성 변환 솔루션 생성 등 다양한 애플리케이션에 사용할 수 있습니다. 이 소프트웨어는 언어 장애가 있는 사람들이 자신의 목소리와 같은 음성을 사용하여 의사 소통할 수 있도록 접근성 목적으로도 사용할 수 있습니다.

Koe Recast의 고유한 기능 중 하나는 음성을 실시간으로 복제하는 기능으로 사용자가 즉석에서 음성을 생성할 수 있습니다. 이것은 사용자가 자신의 모국어로 말할 수 있고 자신의 음성을 사용하여 실시간으로 자신의 단어를 번역하고 큰 소리로 말할 수 있는 실시간 번역과 같은 애플리케이션에서 특히 유용할 수 있습니다.

Koe Recast는 음성 복제 시장, 특히 회사가 기반을 둔 일본에서 게임 체인저가 될 가능성이 있습니다. 그러나 Lyrebird 및 Modulate와 같은 다른 회사도 유사한 음성 복제 설루션을 제공하면서 시장에서의 경쟁이 치열합니다. 기술이 계속 발전함에 따라 Koe Recast 및 기타 음성 복제 소프트웨어 설루션이 사용자와 기업의 요구를 충족시키기 위해 어떻게 진화하는지 보는 것은 흥미로울 것입니다.

딥보이스 사기 전화

이런 종류의 사실적인 AI 기반 생성 기술은 새로운 것이 아님. 구글(Google)은 2018년에 유사한 기술로 파문을 일으켰고 유명인의 오디오 딥 페이크는 몇 년 동안 논란을 불러 일으켰음 

유명인의 목소리 또는 살아있는 사람의 목소리를 모방하는 것은 윤리적 및 법적 문제를 야기할 수 있음. 코에리케스트의 아사라 니어(Asara Near) 개발자는 오용 가능성에 대해 모든 기술과 마찬가지로 음성 생성 AI 기술 역시 긍정적인 면과 부정적인 면이 모두 있을 수 있지만 인류의 대다수는 선한 사람들로 되어 있어 좋은 쪽으로 사용할 것이라 믿는다고 대답하였음. 또한 니어는 불법적이고 혐오스러운 사용을 금지하는 서비스 약관 정책이 포함되어 있다고 밝혔음 

 

"사람은 최대 8000㎐까지 섬세한 소리를 낼 수 있지만 휴대전화는 300~2500㎐ 사이의 음폭밖에 전달하지 못한다"면서 "쉽게 말해 전화를 거치면서 소리가 단순해져 다 비슷하게 느껴질 수 있는 것"

 

AI 음성생성 기술의 이해  

사람의 목소리를 가깝게 시뮬레이션하도록 설계된 AI 모델의 한 유형은 TTS(Text-to-Speech) 시스템입니다. TTS 시스템은 서면 텍스트를 입력으로 받아 자연스러운 음성처럼 들리는 해당 오디오 출력을 생성합니다. 이러한 시스템은 신경망과 같은 심층 학습 기술을 사용하여 소리와 억양이 사람의 음성과 유사한 음성을 생성합니다. TTS 모델은 음성 언어의 패턴과 특성을 학습하기 위해 인간 음성의 대규모 데이터 세트에서 훈련되며 특정 사람처럼 들리는 음성을 생성하기 위해 특정 음성을 미세 조정할 수 있습니다.

AI 음성 생성 소프트웨어는 인공 지능(AI) 기술을 사용하여 사람의 목소리처럼 들리는 합성 음성을 생성하는 소프트웨어 유형입니다. 이러한 소프트웨어 시스템은 복잡한 알고리즘과 심층 학습 모델을 사용하여 인간의 음성 패턴을 분석하고 인간 음성의 자연스러운 억양, 케이던스 및 어조를 모방하는 합성 음성을 생성합니다.

TTS(텍스트 음성 변환) 시스템 및 음성 복제 소프트웨어를 포함하여 다양한 유형의 AI 음성 생성 소프트웨어가 있습니다. TTS 시스템은 서면 텍스트를 입력으로 받아 해당 음성의 오디오 출력을 생성합니다. 반면에 음성 복제 소프트웨어는 특정 사람의 목소리에 대해 훈련되어 그 사람처럼 들리는 합성 음성을 생성할 수 있습니다.

  1. Google Cloud Text-to-Speech: Google Cloud는 다양한 음성 및 언어에 맞게 맞춤설정할 수 있는 고품질의 자연스러운 TTS 솔루션을 제공합니다. Google의 광범위한 도달 범위와 리소스를 통해 AI 음성 생성 소프트웨어는 특히 이미 다른 Google Cloud 서비스를 사용하고 있는 비즈니스에 강력한 판매 잠재력을 가지고 있습니다. 또한 Google은 AI 연구 및 개발에 상당한 투자를 하여 음성 생성 기능을 지속적으로 개선하고 시장 점유율을 확대하는 데 도움이 될 수 있습니다.
  2. Amazon Polly: Amazon Polly는 생생한 음성과 언어를 광범위하게 제공하는 AI 기반 TTS 서비스입니다. Amazon Web Services(AWS)의 일부인 Polly는 특히 클라우드 컴퓨팅 요구 사항에 이미 AWS를 사용하고 있는 회사 중에서 대규모 고객 기반에 도달할 수 있는 잠재력을 가지고 있습니다. 그러나 TTS 시장의 경쟁은 치열하며 Amazon은 다른 플레이어와 차별화되는 데 어려움을 겪을 수 있습니다.
  3. Nuance Communications: Nuance는 AI 음성 생성 소프트웨어를 포함한 음성 및 언어 설루션의 선두 공급업체입니다. 그들의 TTS 기술은 의료, 자동차 및 금융 서비스를 포함한 다양한 산업에서 사용됩니다. 품질과 혁신에 대한 확고한 명성을 바탕으로 Nuance는 지속적으로 판매를 늘리고 시장 점유율을 확대할 수 있는 잠재력을 가지고 있습니다.
  4. iSpeech: iSpeech는 다른 소프트웨어 플랫폼과의 통합뿐만 아니라 다양한 음성 및 언어를 제공하는 클라우드 기반 TTS 플랫폼입니다. 시장의 일부 대기업과 동일한 수준의 브랜드 인지도를 갖지 못할 수 있지만 iSpeech의 유연한 가격 및 사용자 지정 옵션은 소규모 비즈니스 및 신생 기업에 매력적인 옵션이 될 수 있습니다.
  5. Lovo.ai: Lovo.ai는 TTS 및 음성 복제 솔루션을 모두 제공하는 AI 음성 생성 공간의 새로운 플레이어입니다. 그들의 고객 기반은 여전히 ​​상대적으로 작지만 Lovo.ai는 최근 몇 년 동안 강력한 성장을 보였고 기술이 주류가 되어감에 따라 계속 확장할 가능성이 있습니다. 

딥보이스 사기 전화

 


쉽게 악용되는 AI음성생성기술

영국에 본사를 둔 AI 기반 음성 생성 기술 기업인 일레븐랩스(ElevenLabs)는 2023년 1월 자사의 텍스트- 음성 변환 지원 베타 시스템인 프라임보이스 AI (Prime Voice AI)를 처음 선보임. 개발자들은 음성이 실제 인간의 말하는 스타일과 리듬이 일치한다고 하였음. 회사의 보이스랩(Voice Lab) 기능을 통해 사용자는 작은 오디오 샘플에서 음성을 복제할 수 있음 

미국의 IT 전문 매체 머더보드(Motherboard)는 익명 기반의 인터넷 커뮤니티인 포찬(4 chan)의 회원이 인종차별, 동성애 혐오, 폭력적인 말을 하는 자료를 만드는데 일레븐랩스의 프로그램이 사용된 것을 보도하였음. 프라임보이스 AI는 코미디언인 조 로건(Joe Rogan), 미국의 정치 평론가인 벤 샤피로(Ben Shapiro) 및 배우 엠마 왓슨(EmmaWatson)의 목소리를 생성해 냈음. 또한포찬의다른 사용자는 일레븐랩스의 프로그램을 사용해 다양한 애니메이션이나 비디오 게임의 캐릭터 목소리를 생성하여 강렬한 여성 혐오나 트랜스 혐오를 표현하는 영상을 게시하였음 

일레븐랩스는 음성 합성과 복제기능을 모두 제공하고 있어 사용자는 서비스에 가입하는 것만으로 손쉽게 음성 생성을 시작할 수 있음. 일레븐랩스는 특히 말의 모든 악센트를 재현할 수 있는 “전문 복제"기능을 제공함. 포찬의 클립이 유포된 이후 일레븐랩스는 트위터를 통해 자사의 기술이 긍정적인 방향으로 사용되는 것에 압도됨과 동시에 음성복제오용사례도증가하고 있다고 하며, 보호장치를 모색하고 있다고 밝혔음. 음성복제수행 시 지불정보 또는 개인 정보 식별을 요구하거나 모든 음성 복제 요청을 수동으로 확인하는 것을 검토하고 있음 

 

오디오 딥 페이크는 인공 지능(AI)을 사용하여 종종 동의나 인지 없이 실제 사람의 목소리를 모방하는 합성 오디오 녹음을 생성하는 것을 말합니다. 이는 사람의 음성 패턴에 대한 대규모 데이터 세트에 대한 딥 러닝 알고리즘을 교육하여 수행되며, 이는 마치 말하는 것처럼 들리는 새로운 오디오 녹음을 생성하는 데 사용됩니다.

오디오 딥 페이크 기술은 명의 도용이나 신원 도용과 같은 악의적인 목적으로 사기성 음성 녹음을 만드는 것과 같은 오용 가능성에 대한 우려를 제기했습니다. 이로 인해 사람 목소리의 고유한 패턴을 분석하거나 워터마크를 사용하여 녹음의 진위를 확인하는 등 오디오 딥 페이크를 탐지하고 방지하는 기술 개발에 대한 관심이 높아졌습니다.

동시에 오디오 딥페이크 기술은 보다 1)현실적인 음성 비서 제작, 2)언어 장애가 있는 사람들을 위한 접근성 도구 개선, 3)부상 또는 부상으로 말하기 능력을 잃은 개인을 위한 합성 음성 생성과 같은 잠재적인 긍정적인 응용 프로그램을 가지고 있습니다. 병. 모든 신기술과 마찬가지로 오디오 딥 페이크의 잠재적 이점과 위험을 고려하고 피해를 최소화하기 위한 적절한 보호 장치와 규정을 개발하는 것이 중요합니다.


AI음성생성기술악용방지를 위한 과제

AI 기반 음성 생성 도구는 TTS(text-to-speech)를 개선하고, 음성 편집을 위한 새로운 가능성을 열었음. 일례로, 스타워즈의 다스베이더(Darth Vader)와 같은 유명한 음성을 복제하여 영화 산업의 확장에 도움이 되기도 하였음. 그러나 이러한 기술이 오용될 때 책임 소재에 대해서는 논란의 여지가 있음. 일부 포찬의 회원들이 인종차별적, 공격적, 폭력적 발언을 하는 유명인사의 목소리를 생성해 낸 것은 기업과 정부가 기술 오용을 방지하기 위해 더 많은 장치들을 고려해야 함이 명확하게 드러난 사례였음 

법원은 아직 딥페이크 기술 또는 챗GPT와 같이 새롭게 등장하는 AI 기술로 인한 피해에 기업이 책임을 지는 여부 또는 시기를 결정하지 않았음.

많은 기업들이 관련된 위험을 완전히 인지하지 못한 채 AI 제품을 출시하기 때문에 법원과 규제기관의 AI 점검에 대한 압력이 높아지고 있음. 2021년 미국연방거래위원회는 AI 지침을 발표하면서 제품은 해로움보다 이로움이 더 많아야 하며 기업이 제품의 사용 위험에 대해 스스로 책임을 질 준비를 해야 한다고 말했음. 최근 미국연방거래위원회는 기업들에게 AI 제품을 시장에 출시하기 전에 합리적으로 예측 가능한 위험과 영향에 대해 알아야 한다고 권고하였음 


AI 음성 기술에 대한 미래

AI 음성 기술 자체가 나쁜 것은 아니다. 이를테면 네이버는 지난해 돌아가신 부모님의 목소리로 글을 읽어주는 '엄마의 목소리를 부탁해'라는 캠페인을 진행해 뜨거운 호응을 받았다. 하지만 실제 목소리와 구분이 힘든 AI 목소리가 범죄에 악용됐을 때는 파괴력이 크다. 지난해엔 AI가 제작한 볼로디미르 젤렌스키 우크라이나 대통령의 '항복 선언' 영상이 유튜브에 퍼져 논란이 됐다. 김 실장은 "SNS(소셜네트워크서비스)에서 짧게는 몇 분, 몇 초 분량의 음성과 영상을 따도 가짜 음성과 영상을 만들 수 있다"며 "유명인이 아니라 일반 시민들도 딥보이스 음성합성·변조로 명예훼손·허위사실 유포 같은 사건의 피해자가 될 가능성이 크다"

딥보이스 사기 전화

 

반응형

댓글