你有没有想过,Meta 练习 AI 用的数据里,有或许不仅仅维基百科、小说、YouTube 视频……而是你在某个晚上悄悄下载的成人电影?
你没听错。是色情片。并且不是三两个,而是 2396 部!
就连提起这事的方法,都像是段子。
2025 年 7 月 23 日,两家美国成人电影公司——Strike 3 Holdings 和 Counterlife Media,把 Meta 告上了加州北区联邦法院。
他们说,从 2018 年开端,Meta 用 BitTorrent(也便是 BT 下载)悄悄下载了他们旗下的 2396 部成人电影,用来练习自家的 AI 模型。包括视频生成器 Meta Movie Gen、LLaMA 大言语模型,还有其他“未泄漏称号的模型”。
营销号标题我都替他们想好了,重生之《Facebook 盗播我拍的黄片,用来做 AI》。
并且这起案件潜在补偿高达 3.59 亿美元,每部片子 15 万美元。
我知道你想问:Meta 这么大一公司,怎样会干这种事?莫非付个片源授权的钱有那么难?
但慢着,这事真没你想的那么简略。这关系到的不仅仅是“看黄片”这么简略,它揭开了一个一切 AI 公司都不乐意正面答复的问题:练习数据究竟哪来的?
Meta,是怎样把自己送上法庭的
故事要从另一个案件说起。2023 年,Meta 被一批作家团体申述,说它用盗版图书练习自家的 LLaMA 模型。而在那个案件里,Meta 自己供认:是的,咱们确实用了 BitTorrent,从多个“影子图书馆”下载了很多盗版书本,一共 81.7TB 的数据。
留意,这不是「职工私行行为」,是渠道层面参加的工作。公司设了六个虚拟私有云服务器(VPC),连着匿名 IP 地址,用来掩盖 BitTorrent 活动。他们乃至写了脚原本操控做种行为,以防自己太显着地露出。
也正是在这个案件中,Strike 3 发现了 Meta 的 IP 地址出现在 BT 群组里。
所以他们开端顺藤摸瓜,把 Meta 相关的 47 个 IP 地址逐个筛查、匹配下载记载,还用 MaxMind 做地舆定位,再结合他们内部的追寻软件 VXN Scan 和 Cross Reference Tool,挖出了一个令人呆若木鸡的成果:这些 IP 多年来一直在安稳下载并做种他们家的成人电影,并且是“高频 + 长时段 + 多分辩率”同步下载,有着显着“非人类”的行为方式。
「比方下图所示的 185.89.216.251,依据 MaxMind IP 数据库,归属于 Facebook 公司名下,衔接类型为 Corporate 网络。」
你认为这就完了?当然不是。
有多个 IP 尽管不归属 Meta,但与其下载行为在内容、分辩率、言语版别上简直彻底重合,且出现在同一 BT 群组中,存在高度协同嫌疑。Strike 3 将其界说为 Meta 或许建立的 off-infra 服务器(即公司架构外的行为署理)。
其间一个 IP 地址追寻到了一个 Comcast 家庭宽带,绑定在某个 Facebook 职工的家中。
图:Strike 3 供给的侵权 IP 依据片段,包括 Meta 公司 IP、躲藏 IP 段(Range B / Range F)及职工住所 IP,下载行为从 2018 年继续至 2025 年
没错,有人在公司干不完的活,晚上回家接着用自家 Wi-Fi 下片做种,继续奉献练习数据。
细心想想真荒诞。。这也正是这起官司里最丧命的当地——体系性、东西化的“以播促下”式盗播练习。
红色逆后宫动漫在线观看trong>学神天赋动漫在线观看g>天河动漫露娜在线观看>为什么偏偏是色情片?
Strike 3 的律师在诉状里解说了这个问题,说得很“法务”,但翻译成人话便是:
咱们这些黄片,画质高、分辩率高、镜头长、表情天然、对话有节奏、动作有连贯性、场景改变少。
关于练习 AI 模型,尤其是生成类视频模型来说,没有比这种资料更抱负的了。
大多数电视剧编排太快,镜头太多,扮演太造作。新闻视频没有人物互动。YouTube 视频缺少一起性。而成人电影呢?它天然有一个明晰的“故事线”,人物动作从开端到完毕根本在一个空间中完结,配音与肢体一起,并且人物心情、表情都是真人扮演。
当然,除此之外它还有其他练习数据没有的「一起场景」。
所以,这些片子在 Meta 内部,成了一种练习黄金资料。
更要害的是,它们在 BT 网络里太好找了。并且种子越抢手,下载越快。所以 Meta 爽性用“以种换种”的方法,把他人家的片子做种传达出去,用来换回其他内容。种得越多,换得越快。BT 的算法便是“tit for tat”,你耕种给我,我就给你更多速度。
这就从随手拿来变成了自动买卖。
数据越脏,模型越香
说究竟,这不是 Meta 第一次这么干了。
前次用书,这次用片。前者你或许会说“不过是几本小说”,后者你或许会想“成年人都看过”,但工作的实质是相同的:
Meta 正在用一套灰色操作链,替自己省下大笔练习数据授权费。
申述书里写得清清楚楚:
自 2018 年至今,Meta 继续侵犯了 2396 部影片;
分发行为继续时间从“数天”到“数月”;
做种行为并不是单个行为,而是体系性布置,配有专用服务器;
就连 Meta 职工家里的网络都被用来奉献数据;
多达 10 万次的下载分发买卖,有具体 PCAP 记载可查;
在收到律师函正告之后,仍有行为继续。
你或许会觉得这有点扯:Meta 不是有钱吗?能花钱挖这么多人,真至于在数据上省这个钱?
但你要知道,练习一个视频生成模型需求的资料量是“百万小时”等级的。若全用正版,授权费用能过亿美元。而这些影片,在 BT 网络上简直垂手而得。
在“没有数据就没有 AI”的实际里,“先抓后宽和”现已变成了职业潜规则。OpenAI、Stability、Google……哪家不是先偷后赔?
仅仅这次,Meta 撞上了一个极为拿手打官司、且对版权看得比命还重的对手——Strike 3。
提到这儿,咱们有必要再讲一个布景故事。
Strike 3 是美国最喜欢打官司的成人电影公司之一。他们简直一切事务都环绕版权维权来打开,靠打盗版官司收宽和费,年入数千万美元,现已把“维权”做成了流水线生意。
据统计,从 2017 年到 2023 年,Strike 3 就在美国联邦法院提起了近 9500 起此类诉讼。均匀下来简直每天都在申述,且大多选用“John Doe”匿名方式确定 IP 地址后,经过法院指令向 IS天Ė红色逆后宫动漫在线观看27;动漫露学神天赋动漫在线观看娜在线观看P 讨取用户身份,再发律师函要求庭外宽和。
他们乃至自研了一整套追寻体系 VXN Scan,每天扫描 BT 网络,看哪些 IP 在耕种自家影片。可以说,他们介意的不是片子有没有被看,而是有没有人为此付钱。所以打造了一种既挣钱又不违法的商业方式:抓 IP 地址发律师函。一封信寄过去,许多普通人就会乖乖付几百美元私了,落袋为安。
但这次他们盯上的但是 Meta。一个手握 Instagram、WhatsApp、Ray-Ban 智能眼镜和 AI 实验室,市值超 1.7 万亿美元的全球科技巨子。
这一回合,刚好是两种最极点的版权思想的正面临撞。
一边是“你不付钱我就搞你”,一边是“你有片我就拿来用”。
冤家路窄勇者胜。
实际,比 AI 生成还魔幻
咱们很容易用“看黄片练习 AI”来戏弄这件事。但你有没有意识到,它其实揭穿的是一个全职业一起逃避的问题:AI 模型吃进去的数据,没人知道是什么,也没人乐意说清楚它从哪来的。
Meta 不是第一个,也不会是终究一个。只需监管缺位、发表不透明、法令落后,这种“数据洗白”就会成为干流。
这次是情色片,下一次或许是你的医疗印象、你家的监控录像、你写的小说、你朋友的语音谈天。
一切这些,都会被“以研讨为名”的 AI 模型在黑夜里吞噬。
你乃至不知道它们被用来干嘛,终究会变成什么。
就像这次。那些片段,被喂给了一个叫 Meta Movie Gen 的模型。或许哪天,它能一键生成一部你彻底无法分辩是真人仍是 AI 拍的动作片,乃至艺人的表情和心情都真实得让你出戏。
而你自始至终,都不知道它是谁教的动作。
但也不是一切人都在伪装看不见。就在上个月,Cloudflare 更新了方针:默许阻拦一切未经许可的 AI 网络爬虫。只需你的网站挂在他们的 CDN 上,那些自称是“AI 研讨”的爬虫,连内容都看不见。他们的情绪很清晰:你要数据,请先打招呼。
这便是不同。有的公司在练习 AI 之前,先考虑他人的权力。而有的公司则在练习完之后,才开端估计怎样掩盖自己用过什么。。。
Meta 至今还没有回应这场官司。或许他们在等宽和,或许在预备技能弄清,或许爽性等大众忘掉这件事。
不管这场官司终究输赢怎么,有一个现实不会变:AI 的未来,正是用你认为没人会看的数据,一点点喂大的。
你看到的是技能进步,它看到的是练习资料。
而资料,历来都不仅仅数据。
它也或许是你。