Korea Business Review
Korea Business Review

ai-tech

레딧, AI 검색 엔진 '퍼플렉시티' 전격 제소... "구글 검색 결과 불법 스크래핑"

AI 학습 데이터를 둘러싼 법적 분쟁이 구글 검색 결과(SERP) 스크래핑 문제로 확산되고 있다. 테크 기업 전문가들이 회의실에 모여 불법 데이터 수집 증거를 분석하고 법적 대응 방안을 논의하고 있다. [사진 = 코리아비즈니스리뷰 DB] AI 학습 데이터를 둘러싼 글로벌 테크 기업들의 '총성 없는 전쟁'이 법적 분쟁이라는 새로운 국면으로 치닫고 있다.

박찬호 기자입력 2025년 10월 24일수정 2026년 5월 26일
Share
레딧, AI 검색 엔진 '퍼플렉시티' 전격 제소... "구글 검색 결과 불법 스크래핑"

AI 학습 데이터를 둘러싼 법적 분쟁이 구글 검색 결과(SERP) 스크래핑 문제로 확산되고 있다.

테크 기업 전문가들이 회의실에 모여 불법 데이터 수집 증거를 분석하고 법적 대응 방안을 논의하고 있다. [사진 = 코리아비즈니스리뷰 DB]

AI 학습 데이터를 둘러싼 글로벌 테크 기업들의 '총성 없는 전쟁'이 법적 분쟁이라는 새로운 국면으로 치닫고 있다.

미국의 거대 소셜 미디어 플랫폼 레딧(Reddit)이 차세대 AI 검색 엔진으로 주목받는 '퍼플렉시티(Perplexity)'를 상대로, 자사의 콘텐츠를 구글 검색 결과 페이지(SERP)에서 불법적으로 스크래핑(scraping)했다며 공식 소송을 제기한 것이다.

이번 소송은 AI 기업이 콘텐츠 원천 소스가 아닌, 구글이라는 제3의 중개자를 통해 데이터를 우회 수집한 정황이 구체적으로 드러난 첫 사례라는 점에서 AI 업계 전반의 데이터 수집 관행에 거대한 파장을 예고하고 있다.

레딧이 제기한 소송의 핵심은 퍼플렉시티가 레딧과 구글이 막대한 자원을 투입하여 구축한 스크래핑 방지 기술을 의도적으로 회피했다는 데 있다.

레딧은 퍼플렉시티가 자사 웹사이트에 직접 접근하는 대신, 구글의 검색 결과에 노출되는 레딧의 게시물 데이터를 대량으로 긁어 갔다고 주장한다.

이는 AI 모델 훈련에 필요한 데이터를 확보하기 위한 경쟁이 얼마나 치열해졌으며, 그 방식 또한 교묘하게 진화하고 있음을 보여주는 단적인 예이다. 레딧은 이러한 불법적 행위가 자사의 저작권과 비즈니스 모델에 심각한 위협이 된다고 판단했다.


'표시된 지폐' 전략: 구글 검색에만 노출된 미끼 데이터


레딧은 퍼플렉시티의 불법 행위를 입증하기 위해 치밀한 '함정수사(Sting Operation)'를 감행했다. 이들은 마치 위조지폐범을 잡기 위해 '표시된 지폐(marked bills)'를 사용하는 것처럼, 오직 구글 검색 엔진 결과 페이지(SERP)에서만 검색되고 레딧 내부에서는 쉽게 발견할 수 없는 '미끼' 테스트 게시물을 의도적으로 생성했다.

결과는 즉각적이었다. 레딧의 주장에 따르면, 이 테스트 게시물이 생성된 지 불과 몇 시간 만에 퍼플렉시티의 '답변 엔진'에 해당 내용을 질의하자, 미끼 게시물의 콘텐츠가 답변의 일부로 생성되는 것을 확인했다.

레딧은 "퍼플렉시티가 해당 레딧 콘텐츠를 획득하고 이를 답변 엔진에 사용할 수 있었던 유일한 방법은, 그들 또는 그들의 공모자가 구글 SERP에서 해당 레딧 콘텐츠를 스크래핑하고 그 데이터를 신속하게 답변 엔진에 통합하는 것"이라고 소장에서 명시했다.

 


소송의 핵심 쟁점: '답변 엔진'인가, '구글 파싱 도구'인가


소장에 따르면, 퍼플렉시티는 단순히 다른 회사의 대규모 언어 모델(LLM)을 활용하여 방대한 양의 구글 검색 결과를 분석하고, 이 결과를 바탕으로 사용자 질문에 답하는 구조를 가지고 있다.

즉, 퍼플렉시티가 구글의 검색 결과와 그곳에 포함된 레딧의 콘텐츠에 불법적으로 접근하지 않고서는 현재의 '답변 엔진' 서비스를 운영하는 것 자체가 불가능하다는 것이 레딧 측의 핵심 논리이다.

 


퍼플렉시티의 반격: "공개 인터넷 위협" vs "데이터 라이선스 협상용 압박"


이에 맞서 퍼플렉시티는 자사 레딧 게시물을 통해 모든 혐의를 정면으로 반박했다. 이들은 자사의 답변 엔진이 레딧 스레드를 인용하고 토론 내용을 요약하는 것은, 일반 사용자가 레딧 링크를 공유하거나 게시물을 인용하는 것과 본질적으로 다르지 않은 행위라고 주장했다.

오히려 퍼플렉시티는 레딧이 '공개 인터넷(Open Internet)'의 기본 원칙을 위협하고 있다고 역공을 펼쳤다.

퍼플렉시티는 레딧이 자사가 기초 모델을 훈련하지 않는다는 사실을 인지하고 있음에도 불구하고, 콘텐츠 라이선스 비용을 강요하기 위해 부당한 '강탈'을 시도하고 있다고 비난했다.

나아가, 이번 소송이 레딧이 최근 구글 및 오픈AI(OpenAI) 등 다른 거대 AI 기업들과 진행 중인 데이터 학습 협상에서 유리한 고지를 점하기 위한 '무력시위'의 일환일 뿐이라고 그 의도를 폄하했다.

 


[KBR 인사이트: AI 데이터 전쟁의 새 국면, 'SERP 스크래핑'의 부상]


구글 SERP는 그 자체로 전 세계 웹의 정보가 고도로 정제되고 요약된 '황금 데이터베이스'이다.

AI 기업 입장에서 이 데이터를 활용할 수만 있다면 막대한 비용과 시간을 절약할 수 있다. 하지만 이는 구글의 서비스 약관 위반일 뿐만 아니라, 원본 콘텐츠 제공자들의 저작권과 트래픽 수익 모델을 심각하게 훼손하는 행위가 된다.

레딧의 이번 소송은 IPO 이후 자사 데이터의 가치를 극대화하고, 이를 라이선싱 비즈니스로 연결하려는 강력한 의지의 표현이다. 대한민국 기업들 역시 자사의 고유 데이터가 단순히 웹에 공개되어 있다는 이유만으로 AI 모델의 학습 자료로 무단 활용되는 것을 경계해야 한다.

자사 콘텐츠가 검색 엔진 결과에서 어떻게 노출되고, 이것이 제3의 AI 서비스에 의해 어떻게 재가공되는지에 대한 심층적인 모니터링과 법적 대응 전략 수립이 시급한 시점이다.

이번 소송의 결과는 향후 AI 기업들의 데이터 수집 관행과 콘텐츠 플랫폼들의 데이터 보호 전략에 중대한 분수령이 될 것이다.

법원이 '공개된 검색 결과'의 정보를 활용하는 행위를 어디까지 '공정 이용'으로 인정할 것인지, 혹은 새로운 형태의 저작권 침해로 규정할 것인지에 따라 AI 산업의 미래 지형도가 바뀔 수 있다.



경영연구 및 사례분석 연구 : KBR경영연구소 · 저작권자 © 코리아비즈니스리뷰(Korea Business Review). 무단 전재, 재배포, AI 학습 및 활용 금지