2021 年的时候,一位基金经理在 Discord 上找到了人在德国的高中老师克里斯托夫·舒曼。
(资料图片)
基金经理愿意承担舒曼开源项目的所有云计算成本,没有任何附加条件。
一开始舒曼不敢相信会有这样的好事,直到几周之后,他获得了 AWS 云端 GPU 的访问权。
他的项目是 LAION,世界上*的免费 AI 训练数据集。
那位基金经理名叫 Emad,他创办了 Stability.AI,开启了 AIGC 的时代。
开源万岁。
以下内容来源 Bloomberg,GPT 翻译的,Founder Park 做了些微小的校对。
在德国汉堡郊区的一所郊区房子前,单词「LAION」用铅笔潦草地写在邮箱上。
这是一个庞大的数据收集工作的背后人物,这个工作是人工智能潮流的核心,并引发了一个越来越激烈的关于如何监管它的争议。
这个人是高中教师克里斯托夫·舒曼(Christoph Schuhmann),而 LAION 是他的热情项目。当舒曼不是在向德国青少年教授物理和计算机科学时,他与一小队志愿者一起建立了世界上*的免费 AI 训练数据集,已经被用 AIGC,如谷歌的 Imagen 和 Stable Diffusion。
像 LAION 这样的数据库对于 text2image 的 生成式 AI 模型非常重要,它们依赖于它们来解构和创建新图像所需的大量视觉材料。这些产品的首次亮相是一个范式转移事件:它将科技行业的人工智能竞赛推向了*,但也引发了许多道德和法律问题。
在几个月内,针对生成式 AI 公司 Stability AI 和 Midjourney 的版权侵权诉讼频发,批评者对其中暴力、性化和其他问题图像的数据集发出警报,他们指责这些数据集包含了几乎不可能解决的偏见。
但这并不是舒曼的关注点,他只想让数据自由。
01
40 亿美元 → 零收益
这位 40 岁的老师和受过演员训练的人,两年前在一个 AI 爱好者的 Discord 服务器上创建了 LAION。OpenAI 的*版 DALL·E 是一个深度学习模型,用于响应文字 prompt 生成图片,例如,按要求创建一个粉色鸡坐在沙发上的图像。
舒曼受到启发,但也担心它会鼓励大型科技公司使更多数据专有化。
「我立刻明白,如果这个只集中在一个、两个或三个公司,对社会的影响将非常糟糕,」舒曼说。
作为回应,他和服务器上的其他成员决定创建一个开源数据集来帮助训练 t2i 扩散模型,这是一个类似于用数百万张闪卡向某人教授一种外语的几个月的过程。该组使用由加利福尼亚州非营利组织 Common Crawl 收集的原始 HTML 代码来定位网络上的图像并将其与描述性文本相关联。它不使用任何手动或人工策划。
几周后,舒曼和他的同事拥有了 300 万张图像文本对。三个月后,他们发布了一个含有 4 亿文本标注图片的数据集。现在,这个数字已经超过了 50 亿,使 LAION 成为*的免费图像和标注数据集。
随着 LAION 的声誉不断提高,团队一直在无偿工作,2021 年获得了机器学习公司 Hugging Face 的一次捐赠。然后有一天,一位前对冲基金经理进入了 Discord 聊天室。
Emad Mostaque 主动提出承担计算能力的费用,没有任何附带条件。他想要启动自己的开源生成式 AI 业务,并渴望利用 LAION 来训练他的产品。团队最初嘲笑这个提议,认为他是一个疯子。
舒曼说:「我们一开始非常怀疑,但经过四周左右,我们获得了云端的 GPU 资源,这些资源通常的费用约为 9000 美元或 10000 美元。」
当 Mostaque 在 2022 年创办 Stability AI 时,他使用了 LAION 的数据集来训练 Stable Diffusion,并雇用了该组织的两名研究人员。一年后,Stability AI 目前正在寻求 40 亿美元的估值,这在很大程度上得益于 LAION 提供的数据。
舒曼没有从 LAION 中获利,他对此不感兴趣。「我仍然是一名高中老师。我拒绝了各种公司的工作邀请,因为我希望它保持独立。」
02
数据集就是
AI 时代的石油
像 LAION 这样的数据库中的许多图像和链接,一直以来都明目张胆地存在于网络上,有些甚至已经存在数十年之久。
它需要 AI 的兴起才揭示出它的真正价值,因为数据集越大且越多样化,其中的图像质量越高,AI 生成的图像就会越清晰、更精确。
这一认知反过来又引发了许多法律和伦理问题,即公开可用的材料能否用于填充数据库——如果答案是肯定的,那么创作者是否应该得到报酬。
为了建立 LAION,创始人们从 Pinterest、Shopify 和 AWS 等公司中获取了视觉数据——这些公司并未就 LAION 使用它们的内容是否违反了其服务条款发表评论。还包括来自 YouTube 缩略图、DeviantArt 和 EyeEm 等作品集平台的图像、来自包括美国国防部在内的政府网站的照片,以及来自新闻网站如《每日邮报》和《太阳报》的内容。
如果你问舒曼,他会说任何在网上免费提供的东西都是公平竞争的。但目前欧盟还没有 AI 监管,即将公布的 AI Act,其语言将在今年夏天早些时候确定,也不会规定版权材料是否可以包含在大型数据集中。
相反,立法者正在讨论是否包括一项规定,要求 AIGC 背后的公司披露其产品训练所使用的数据集中包含了哪些材料,从而给这些材料的创作者提供采取行动的选择。
欧洲议会议员 Dragos Tudorache 告诉彭博社,这一规定背后的基本思想很简单:「作为生成式 AI 的开发者,你有义务记录和透明地披露你在算法训练中使用的版权材料。」
这种规定对于 Stability AI 不是问题,但对于其他 t2i 模型可能会带来问题「没有人知道 Open AI 实际上用来训练 DALL·E 2 的是什么,」舒曼说,以此作为技术公司封锁公共数据的例子。这也将颠覆现有的数据收集现状。
「在这个领域中,惯例是假定您不需要同意或不需要通知人们,或者他们甚至不需要知道这一点。人们有一种自认为拥有权利的感觉,即无论网上有什么,您都可以爬取并将其放入数据集中,」Mozilla 基金会值得信赖的 AI 高级研究员 Abeba Birhane 说道,他已经研究了 LAION。
尽管 LAION 没有直接被起诉,但它已被列为两起诉讼的被告:一起指控 Stability 和 Midjourney 违反 DMCA 版权法和公众权利法,违法竞争和违反 TOS,使用艺术家的版权图片来训练其模型,另一起是由盖蒂影像公司针对 Stability 提出的,指称 LAION 爬取了其 1200 万张图片用于训练 Stable Diffusion。
由于 LAION 是开源的,因此不可能知道有多少其他公司使用了该数据集。谷歌已经承认它利用 LAION 帮助训练其 Imagen 和 Parti AI 文本到图像模型。舒曼认为其他大公司正在悄悄地这样做,只是不会披露。
03
互联网的黑暗面
当他的儿子玩《Minecraft》时,舒曼坐在客厅里,将 LAION 比作「大信息技术海啸」上的「小型研究船」,采集下面的样本并展示给世界看。
「这只是互联网上公开的资源的一小部分,」他说到 LAION 的数据库,「因为即使是我们这样的人,只有来自捐赠者的 1 万美元的预算,也能够得到它。」
但是,公开的并不总是公众想要的,或者是合法允许看到的。除了猫和消防车的安全图片,LAION 的数据集还包含了数百万张色情、暴力、儿童裸体、种族主义梗、仇恨符号、版权艺术和从私人公司网站上抓取的作品。
舒曼表示,他不知道 LAION 的数据集中是否有儿童裸体照片,尽管他承认他没有深入审查数据。如果得到这样的内容通知,他说,他将立即删除与之相关的链接。
在开始组装数据库之前,舒曼咨询了律师并运行了自动化工具来过滤非法内容,但他对于清洗 LAION 的数据并不感兴趣,而是希望从中学习。
「我们可以从发布的数据中过滤出暴力内容,」他说,「但我们决定不这样做,因为它将加速暴力检测软件的开发。」LAION 提供了一个撤下表格以请求删除照片,但是该数据集已经被下载了数千次。
从 LAION 中提取的攻击性内容似乎已经整合到了 Stable Diffusion 中,尽管最近已经加强了过滤器,但很容易生成假的伊斯兰国斩首照片或大屠杀图像。
一些专家认为,这样的材料也可能在 AI 模型本身内部产生偏见:即使文本提示没有暗示主题的种族,像 Dall·E-2 和 Stable Diffusion 这样的工具也因复制种族刻板印象而受到批评。
这些偏见是谷歌决定不发布经过 LAION 训练的 Imagen 的原因。
当被要求发表评论时,Stability AI 表示,它在 LAION 数据库的一个策划子集上对 Stable Diffusion 进行了训练。该公司在一封电子邮件中写道,它试图「为该模型提供比原始 SD 更多样化和广泛的数据集」,并尝试使用「LAION 的 NSFW 过滤器」删除「成人内容」。
即使是基于开源的人工智能的支持者也警告说,在未加筛选的数据集上训练人工智能的影响。
根据 Hugging Face 的机器学习和社会团队负责人 Yacine Jernite 的说法,基于有污点的数据的生成式 AI 工具将反映其偏见。「模型是它所训练的内容的非常直接的反映。」
Jernite 补充说,在产品运行后引入防护栏是不足够的,因为用户总是会找到规避安全措施的方法。他们说:「当你拿一个训练有素的模型来模拟人们在互联网上的行为,并说:『好的,但不要这样做。』人们会找到一种方法来让它仍然这样做。」
数据非营利组织 Common Crawl 的创始人吉尔·埃尔巴兹(Gil Elbaz)怀疑「不能从训练集到生产之间画一条直线」,并将该过程比作一个去博物馆寻找灵感但被阻止复制艺术品的艺术家。他说,「重要的是社会决定哪些用例是合法的,哪些用例是不合法的。」
这不仅仅是由社会决定。随着欧洲监管机构制定人工智能使用法规,他们正在努力应对的事实是,目前人工智能热潮正在挖掘的数据多年来一直处于法律灰色地带,而这一现状现在才受到严重审查。欧洲议会成员图多拉切 (Tudorache) 说:「没有多年的数据积累,人工智能不可能达到这种复杂程度。」
但在舒曼的眼中,应该监控的不是数据集。在他看来,人工智能的最坏情况是大型科技公司通过为监管框架定制工具来排挤开发人员。「如果我们试图放慢速度并过度监管,」他警告说,「最终的风险是只有少数大型企业玩家能够承担所有正式要求。」
标签:
2021年的时候,一位基金经理在Discord上找到了人在德国的高中老师克里斯托夫·舒曼。基金经理愿意承担舒曼
随着天气温度逐渐上升,以防晒伞出名的蕉下已按耐不住内心的躁动,开始频繁活跃在大众视线里。只不过在第十
佛山苏李秀英医疗美容整形医院佛山苏李秀英医疗美容整形医院是经佛山市禅城区政府批准成立的非营利性社会福
来源:E药经理人谁在涨?谁在跌?医药行业高管薪资天花板再被刷新。A股生物医药行业董事长们或总经理干一年
东营高三复读学校成立是为了满足高考不及格或不符合自己喜欢大学要求的考生。这种类型的教育机构分布在中国
本报讯(记者周洪松)日前,河北省安排部署2023年普通中小学招生入学工作,明确规定普通高中实行属地招生,
这才是今天最大的瓜,4月26日凌晨,TMagazine杂志主编冯楚轩突然开腔炮轰Vogue主编章凝,用词犀利,引起广大
4月26日,有媒体曝光90后小花陈瑶和绯闻男友一起吃火锅,甜蜜约会的画面,引发网友热议。据悉,日前陈瑶和
沕沕水景区票价,忽忽水这个很多人还不知道,现在让我们一起来看看吧!1、全程96公里左右,1个半到2个小时左
看惯了千篇一律的固态硬盘设计,你是不是会心水一款国潮设计的产品呢?梵想S500PRO国潮系列NVMeM 2固态硬盘
节至人间欣向荣,作为春节之后首个小长假,2023年五一出行量井喷,旅游景点火爆已板上钉钉。荣耀将于4月29
由华纳兄弟影片公司发行的DC超级英雄电影《闪电侠》(TheFlash)已定档6月16日中国内地与北美及全球同步上映
明天凌晨,英超冠军的争夺征途中将上演天王山之战,曼城坐镇主场伊蒂哈德迎战阿森纳。”各项赛事已经打...
影片中,乔杉范丞丞马丽张婧仪组成的“冤种一家”踏上爆笑旅程。首映礼现场,业内多位熟面孔纷纷亮相,...
剧版《天生一对》在2018年大火,甚至带动了泰国旅游,讲的是女主穿越回泰国古代邂逅男主的爱情故事。影片剧
由西安市人力资源和社会保障局主办,西安曲江新区党群工作部、西安曲江文化金融控股(集团)有限公司、西
【专家点评】“海岸卫士”“鸟类天堂”“鱼虾粮仓”……种种美誉彰显了红树林在净化海水、防风消浪、维...
以下是中创环保在北京时间4月26日10:45分盘口异动快照:4月26日,中创环保盘中快速上涨,5分钟内涨幅超过2%
第六届数字中国建设峰会即将在榕城福州开幕,一首榕“数”小夜曲,邀您共赏福州撩人夜色,见证数字经济...
火山的女儿存档在哪游戏存档文件位置一览,火山的女儿存档在什么地方,游戏中玩家想要知道存档文件有点费劲
据微信官方消息,即日起,微信用户可以在数字人民币APP内的钱包快付功能下开通“微信支付”,选择将任意...
在动作角色扮演游戏《艾尔登法环》中,玩家需要对战许多强大Boss,其中与极具挑战性的碎星将军拉塔恩的战斗
36氪获悉,恒指开盘跌0 49%,恒生科技指数跌0 7%;半导体、食品、制药板块领涨;科技股多数下跌,阿里巴巴
4月25日,曾担任国家沙排队教练,现任新疆女子沙排队主教练的张振希接受记者采访时,对杭州亚运会这片沙滩
江苏去年新收涉网知产案逾8000件通过司法裁判规范不正当竞争行为本报南京4月25日电记者丁国锋随着互联网经
1 汕头到广州多少公里开高速从广州到汕头需要多长时间从广州到汕头有多远汕头到广州多长时间从广州到汕头约
证券时报网讯,据央视新闻,中国核能行业协会今天(26日)发布《中国核能发展报告2023》蓝皮书。蓝皮书显示,
长沙晚报4月25日北京讯(特派全媒体记者尹玮)《花猪司令》晋京演出大获成功,离不开全体主创人员的共同努
已于近日收官的“青春向未来纵‘琴’欢乐音乐节”以音乐为纽带,架起文化交流的桥梁,让琴澳携手和鸣,...
金融界基金04月26日讯嘉实中证疫苗与生物技术ETF基金04月25日下跌3 24%,现价0 896元,成交1908 49万元。当
Copyright © 2015-2022 国华娱乐网版权所有 备案号:京ICP备2021034106号-22 联系邮箱:55 16 53 8 @qq.com