생성형 AI란?

생성형 인공 지능(AI)은 사람의 지시에 따라 콘텐츠를 제작할 수 있는 컴퓨터 프로그램의 일종입니다.

학습 목표

이 글을 읽은 후에 다음을 할 수 있습니다:

  • 생성형 AI의 정의
  • 생성형 AI의 작동 방식 설명
  • 생성형 AI의 장점과 단점 나열

글 링크 복사

생성형 AI란?

생성형 인공 지능(AI)은 프롬프트에 응답하여 텍스트, 이미지, 컴퓨터 코드, 시청각 콘텐츠를 생성할 수 있는 딥러닝 모델의 한 유형입니다.

생성형 AI 모델은 일반적으로 생성하도록 구축된 것과 동일한 종류의 데이터인 방대한 양의 원시 데이터로 학습됩니다. 이러한 데이터를 통해 임의의 입력이 주어졌을 때 생성형 AI 모델은 통계적으로 해당 입력과 관련이 있을 가능성이 높은 응답을 형성하는 방법을 학습합니다. 예를 들어, 일부 생성형 AI 모델은 유기적이고 독창적인 방식으로 서면 프롬프트에 응답할 수 있도록 대량의 텍스트를 학습합니다.

더 간단히 말하자면, 생성형 AI는 인간 예술가나 작가처럼 요청에 반응하지만, 더 빠르게 반응할 수 있습니다. 이러한 모델이 생성하는 콘텐츠가 "새로운 것" 또는 "원본"으로 간주될 수 있는지 여부는 논쟁의 여지가 있지만, 많은 경우 인간의 특정한 창의적 능력과 비슷하거나 이를 능가할 수 있습니다.

인기 있는 생성형 AI 모델로는 텍스트 생성을 위한 ChatGPT와 이미지 생성을 위한 DALL-E가 있습니다. 많은 조직에서는 자체 모델을 구축하기도 했습니다.

생성형 AI는 어떻게 작동할까요?

머신 러닝, 딥러닝, 신경망

생성형 AI는 머신 러닝의 한 유형으로, 수학적 분석을 통해 관련 개념, 이미지, 패턴을 찾아냅니다. 그런 다음 이 분석을 사용하여 수신한 프롬프트와 통계적으로 유사하거나 관련성이 높은 콘텐츠를 생성합니다.

특히 생성형 AI는 딥러닝이라고 하는 일종의 머신 러닝에 의존합니다. 딥러닝 모델은 레이블이 지정되지 않은 데이터로부터 학습할 수 있을 만큼 강력합니다. 딥러닝 모델은 신경망이라는 일종의 컴퓨팅 아키텍처를 사용합니다. 이 아키텍처는 인간의 뇌가 뉴런을 통해 데이터를 전달하는 방식과 유사하게 데이터를 서로 전달하는 여러 노드로 구성됩니다. 신경망은 매우 정교하고 세밀한 작업을 수행할 수 있습니다.

트랜스포머와 셀프어텐션

언어를 해석할 수 있는 생성형 AI 모델은 개별 단어보다 더 많은 것을 이해해야 합니다. 전체 문장, 문단, 문서를 해석할 수 있어야 합니다. 초기의 머신 러닝 모델은 문장 전체를 이해하는 데 어려움을 겪었고, 문장이 끝날 무렵에는 문장의 시작 부분을 "잊어버려서" 잘못된 해석을 내놓기도 했습니다.

최신 생성형 AI 모델은 트랜스포머라는 특정 종류의 신경망을 사용합니다. 이 신경망에서는 셀프어텐션이라는 기능을 사용하여 시퀀스의 요소가 어떻게 연결되는지 감지합니다. 트랜스포머를 사용하면 생성형 AI 모델이 개별 단어와 구문뿐만 아니라 대규모 텍스트 블록을 처리하고 문맥을 파악하는 등의 작업을 수행할 수 있습니다.

학습 데이터

생성형 AI 모델이 제대로 작동하려면 대부분의 경우 사람이 평생 동안 처리할 수 있는 것보다 더 많은 양의 데이터가 공급되어야 합니다. 예를 들어, 대규모 언어 모델 ChatGPT는 수백만 개의 문서로 학습되었습니다. 이미지 생성기는 수백만 개의 이미지를 토대로 학습하고, 코드 생성기는 수십억 줄의 코드를 토대로 학습할 수 있습니다.

이 학습 데이터는 벡터 데이터베이스에 저장됩니다. 이 데이터베이스에서 데이터의 포인트는 벡터 또는 다차원 필드 내의 좌표 집합으로 저장됩니다. 위도와 경도를 바탕으로 지도를 보는 사람이 주변 위치를 찾을 수 있는 것처럼, 데이터를 벡터로 저장하면 머신 러닝 모델이 "근처" 데이터 지점을 찾을 수 있습니다. 이를 통해 모델은 단어, 이미지, 사운드, 기타 모든 유형의 콘텐츠를 연관 짓고 문맥을 이해할 수 있습니다.

생성형 AI 모델이 일정 수준의 미세 조정에 도달하면 결과를 생성하는 데 그처럼 많은 데이터가 필요하지 않습니다. 예를 들어, 음성 생성형 AI 모델은 수천 시간의 음성 녹음을 바탕으로 학습할 수 있습니다. 그러나 일단 미세 조정이 완료되면 일부 모델은 몇 초 분량의 샘플만 녹음하면 누군가의 목소리를 사실적으로 모방할 수 있습니다.

생성형 AI의 장단점은?

생성형 AI 모델은 여러 가지 잠재적 이점을 제공하므로 그 인기가 높아지고 있습니다. 이 이점에는 다음이 포함되지만, 이에 국한되지는 않습니다.

  • 콘텐츠 아이디어 형성: 생성형 AI를 사용하면 콘텐츠 크리에이터가 보다 빠르게 창의적인 방향을 제시할 수 있습니다.
  • 더 나은 챗봇: 생성형 AI 모델을 챗봇에 통합하여 고객의 질문에 더 잘 답변하고 잠재 고객의 참여를 유도하는 등의 작업을 수행할 수 있습니다.
  • 연구 결과 개선: 생성형 AI 모델은 의료 데이터나 과학 연구 등 방대한 양의 데이터를 빠르게 처리하므로 연구에 도움이 될 수 있습니다.
  • 검색 결과 개선: 검색 엔진과 가상 어시스턴트에 생성형 AI 기능을 통합하면 쿼리에 대한 응답으로 관련 정보를 더 빠르게 제공할 수 있습니다.
  • 엔터테인먼트: 많은 사람이 그저 재미를 위해서 공개적으로 사용 가능한 생성형 AI 도구를 이용합니다.
  • 기타 이점: AI는 빠르게 성장하는 분야이며, 생성형 AI를 통해 얻을 수 있는 더 많은 이점은 아직 나오지 않았을 가능성이 높습니다.

하지만 생성형 AI에는 다음과 같은 단점도 있습니다.

  • 할루시네이션 및 기타 부정확성: 생성형 AI 모델은 일반적으로 패턴을 식별하는 데 매우 능숙하지만, 때로는 실제로는 존재하지 않는 패턴을 식별하는 경우도 있습니다. 이로 인해 모델이 잘못된 정보를 제공할 수 있으며, 이러한 현상을 "할루시네이션"이라고 합니다. 또한, 생성형 AI 모델은 입력되는 데이터만큼만 정확하며, 소스 데이터에 액세스하지 않으면 생성형 AI 결과물이 사실인지 확인하기 어려울 수 있습니다.
  • 데이터 유출: 모델은 프롬프트에서 제공된 데이터를 가져와 예상치 못한 상황에서 데이터를 노출시킬 수 있습니다. 여러 대기업에서 이 방식으로 기밀 정보나 소스 코드가 실수로 유출된 사례가 있습니다.
  • 우발적인 표절 또는 지적 재산의 오용: 생성형 AI 모델은 기존 콘텐츠를 기반으로 하므로 해당 콘텐츠의 원저자나 저작권 소유자의 허가 없이 제공된 콘텐츠를 복제할 수 있습니다.
  • 악의적인 응답 조작: 공격자가 생성형 AI 모델에 다른 사용자에게 위험하거나 안전하지 않은 정보를 생성하는 데이터를 제공할 수 있습니다.
  • 편향성: 학습할 때 모델에 입력되는 정보에 편향성이 있을 경우 모델을 미세 조정하여 수정하지 않는 한 그대로 유지되거나 악화될 가능성이 높습니다. 그런 경우라 해도, 전체 학습 세트를 검토하지 않고 편향성이 없는 결과를 보장하는 것은 거의 불가능합니다.

대규모 언어 모델(LLM)이란?

"대규모 언어 모델"(LLM)은 생성형 AI 모델의 기술 용어로, 언어를 처리하고 사람이 말하는 언어와 프로그래밍 언어를 모두 포함하여 텍스트를 생성할 수 있습니다. 인기 있는 LLM으로는 ChatGPT(OpenAI에서 제공), Llama(Meta에서 제공), Bard(Google에서 제공), Copilot(GitHub에서 제공), Bing Chat(Microsoft에서 제공) 등이 있습니다.

AI 이미지 생성기란?

AI 이미지 생성기는 LLM과 유사하게 작동하지만, 텍스트가 아닌 이미지가 대상입니다. 인기 있는 AI 기반 이미지 생성기의 두 가지 예로는 DALL-E와 Midjourney가 있습니다.

Cloudflare에서는 생성형 AI 개발을 지원할까요?

Cloudflare에서는 개발자와 기업이 자체 생성형 AI 모델을 구축하도록 지원합니다. Cloudflare에서는 개발자가 자체 데이터에서 Cloudflare 전역 네트워크에 임베딩을 생성하고 저장할 수 있도록 Vectorize를 제공하고, 글로벌 GPU 네트워크에서 생성형 AI 작업을 실행하기 위한 Cloudflare Workers AI를 제공합니다. Cloudflare에서 어떻게 차세대 생성형 AI를 지원하는지 자세히 알아보세요.