skip_to_content
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 로고
  • 전체 기사
  • 🗒️ 회원가입
  • 🔑 로그인
    • 日本語
    • English
    • 中文
    • Español
    • Français
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 개인정보처리방침 cookie_banner_and 쿠키 정책 cookie_banner_more_info

쿠키 설정

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

X사가 AI 훈련에 자사 콘텐츠 사용을 금지! 일본에 미치는 영향은?

X사가 AI 훈련에 자사 콘텐츠 사용을 금지! 일본에 미치는 영향은?

2025年06月06日 20:17

X사, AI 모델 훈련에 자사 콘텐츠 사용 전면 금지

――일본의 생성 AI 에코시스템에 달하는 충격과 재편의 시나리오――





1. 서론──갑작스러운 "문 닫기"

2025년 6월 5일, 소셜 네트워크 X(구 Twitter)는 개발자 규약을 개정하여, 제3자가 X상의 게시물이나 API를 통해 얻은 데이터를 "기반 모델(foundation / frontier model)의 학습이나 파인튜닝에 이용하는 것"을 전면적으로 금지했습니다. TechCrunch가 처음 발견하고, The Verge가 후속 보도를 내자, 전 세계 AI 개발자 커뮤니티는 술렁였습니다.  



2. 변경점을 해독하다──“Reverse Engineering and other Restrictions”

새로운 조항은 "Reverse Engineering and other Restrictions" 내에 한 줄 추가되었을 뿐이지만, 그 영향은 막대합니다. X API를 통한 크롤링도 스크래핑도 예외가 아니며, "연구 목적"이나 "비영리 목적"의 문구도 명시적으로 제외되었습니다. 데이터의 이동성을 보장해왔던 기존의 “개방적 API 문화”가 하룻밤 사이에 봉쇄로 전환되었습니다.



3. 배경──xAI에 의한 인수와 "Grok" 자체의 학습 수요

2025년 3월, 일론 머스크가 이끄는 xAI는 X를 약 330억 달러에 인수하고, "Grok"이라는 자사 LLM을 전면에 내세웠습니다. X사는 자사 모델의 훈련에는 계속해서 플랫폼 데이터를 사용할 한편, 타사에는 문을 닫는 "포위 전략"으로 전환한 형태입니다. 이 구조는 데이터를 “자원”으로 독점하고, 높은 가격으로 라이선스를 제공하여 수익을 노리는 Reddit이나 NY Times와 같은 흐름에 합류합니다.



4. 세계적 조류──Reddit 소송과 “라이선스 비즈니스”의 대두

Reddit은 2025년 5월, Anthropic을 상대로 "크롤 횟수 10만 초과"를 이유로 제소했습니다. 데이터를 자산화하고, Google과는 2억 달러 규모의 라이선스 계약을 맺는 한편, 무단 이용에는 강경한 태도를 보였습니다. X의 움직임은 이러한 “콘텐츠 포위”의 세계적 조류에 박차를 가하는 것입니다.



5. 일본의 AI 개발 기업에 닥친 심각한 "데이터 기근"

대규모 언어 모델(LLM)의 성능은 데이터 양과 다양성에 의존합니다. 일본어 소셜 미디어 데이터는 속어, 방언, 국내 주제를 포함하기 때문에, 일본어 모델을 훈련하는 데 필수적입니다. 그러나 국내 주요 SNS에서는 이용 규약이 잇따라 “AI 학습 불가”로 개정되며, 앞으로는 획득 비용도 법적 리스크도 급증할 것입니다. 결과적으로,


  • 해외 거대 기업에 비해훈련 비용이 비싸

  • 모델 성능에서 뒤처질 가능성

  • 벤처의 혁신 기회가 축소



이라는 삼중고가 다가옵니다.



6. 데이터의 대체 출처──공개 코퍼스와 기업 내 데이터

제한을 회피하는 현실적인 해결책으로는, ①국립국어연구소의 공개 코퍼스, ②신문·방송국과의 유료 계약, ③자사 보유 채팅 로그·FAQ 등 "프로프라이어터리 데이터"의 연마, ④합성 데이터 생성 등의 선택지가 있습니다. 다만 공개 코퍼스는 라이선스가 다양하여, **저작권법 제30조의4(정보 분석 규정)**에 따라도 2차 이용 조항을 개별 확인할 필요가 있습니다.



7. 법 제도의 현재 위치──저작권법과 robots.txt의 경계

일본에서는 2018년 개정 저작권법에 의해 "정보 분석 목적의 복제 등"은 권리 제한 대상이 되었지만, "상업용 LLM의 학습"이 이에 해당하는지는 회색 지대입니다. 게다가, 신문협회는 2025년 6월 4일 자로 "robots.txt로 AI 학습 거부를 나타내는 의사를 존중해야 한다"고 성명을 발표하고,의사 표시를 무시한 학습은 부당하다는 입장을 명확히 했습니다.



8. "옵트아웃"으로 보호되는 개인의 게시물?

X는 사용자 설정에서 "Grok에 의한 학습을 거부"할 수 있는 옵트아웃 항목을 준비하고 있지만, 이번 규약은 "제3자"에 대한 전면 금지이며,X사 자체의 학습에는 여전히 게시물이 이용되는점에 주의가 필요합니다.



9. 기업·연구기관의 전략적 대응

  1. 데이터 라이선스 협상의 조기 착수

  2. 계약 완료된 데이터 세트의 법적 리스크 점검

  3. 생성 AI의 투명화(출처 추적 가능성) 구현

  4. 합성 데이터와 소량 고품질 학습 "스몰 데이터 전략"



이들은 단기적인 대응이며, 장기적으로는업계 횡단으로 일본어 오픈 데이터를 공동 정비하는 기반이 요구됩니다.



10. 벤처에 대한 영향──자금 조달과 평가의 변화

VC는 기존에 "기술 우위성=모델 성능"을 중시해왔지만, 앞으로는 **"정규 라이선스로 확보한 데이터를 얼마나 보유하고 있는가"**가 기업 가치의 열쇠가 됩니다. 일본발 스타트업에는, 조기에 데이터 전략을 피치에 포함하고, 자본 비용 상승을 반영한 사업 계획의 수정이 필요합니다.



11. 학술 연구의 딜레마──오픈 사이언스와 지재권 보호

대학·공공 연구기관은 원칙적으로 성과를 공개하는 입장에 있지만, 기업 데이터를 사용하여 모델을 훈련한 경우,모델 파라미터의 공개가 라이선스 위반이 될 우려가 있습니다.데이터 제공 기업과 MOU를 체결하고, “공개 가능 부분”과 “비공개 부분”의 구분 규칙을 명문화하는 것이 필수적입니다.



12. 해외 플랫폼과의 온도차──“Open vs. Closed”

Meta는 Llama 3에서 CC 라이선스의 웹 데이터를 대량으로 사용하고 있으며, YouTube는 아직 명확한 AI 학습 제한을 명시하지 않고 있습니다. 미국에서는 **“공정 이용” 논**이 일정한 방패가 되는 반면, EU에서는 AI Act가 2026년 시행 예정으로, 투명성 의무가 부과됩니다. X의 폐쇄화는 "미국에서도 데이터가 무료가 아닌" 시대의 도래를 상징하며, 국경을 넘은 데이터 거버넌스 전쟁이 본격화됩니다.



13. 일본 정부의 입장과 정책 제언

경제산업성은 "생성 AI 활용 가이드라인(안)"에서 “데이터 제공자의 의사 존중”을 포함하면서, AI 산업 경쟁력 확보를 내세우고 있습니다. 앞으로는,


  • 공공 데이터의 기계 판독 가능화와 2차 이용 자유화

  • 대학·공공 연구 기관에 의한 공유 클라우드/데이터 레이크의 정비

  • 중소기업·스타트업을 위한 데이터 취득 보조금



의 세 가지가 열쇠가 됩니다.



14. "독자 데이터"야말로 경쟁 우위──새로운 가치 사슬

플랫폼 사업자가 데이터를 독점할수록, 기업 내에 잠재된 업무 로그·공급망 데이터·고객 채팅 등 “미발굴 데이터”의 가치는 급상승합니다. 일본 기업은, 언어와 상관습의 장벽으로 해외 기업이 접근하기 어려운 데이터를 갈고 닦아, "틈새지만 깊은 전문성"을 무기로 글로벌에서 차별화를 꾀할 기회라고도 할 수 있습니다.



15. 요약──“데이터의 질과 접근”이 AI 경쟁력을 결정한다

X사의 이용 약관 개정은, 겉보기에는 단순한 정책 변경이지만, 실제로는 생성 AI 산업의 파워 밸런스를 근본적으로 뒤흔드는 "데이터 쟁탈전"의 새로운 장의 시작입니다. 일본의 AI 개발자·기업·정책 당국은,


  1. 데이터 조달의 다양화와 법적 리스크 관리

  2. 오픈 데이터 기반의 공동 구축

  3. 독자 데이터 창출에 의한 차별화



의 세 가지 축을 신속히 정비하지 않으면, 세계 시장에서의 경쟁력을 잃을 수 있습니다. 반대로 말하면, 이 위기를 극복하고, **"질 높은 독자 데이터×고효율 모델"**을 실현한 기업이야말로, 다음 생성 AI 시대의 승자가 될 것입니다.




TechCrunch

  • The Verge

  • Reuters

  • 일본신문협회

  • 디지털청

참고 기사

사, AI 모델의 훈련에 자사 콘텐츠를 사용하는 것을 금지하도록 이용 약관을 변경
출처: https://techcrunch.com/2025/06/05/x-changes-its-terms-to-bar-training-of-ai-models-using-its-content/

← 기사 목록으로 돌아가기

문의하기 |  이용약관 |  개인정보처리방침 |  쿠키 정책 |  쿠키 설정

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.