互联网公司依赖免费劳动力。寻求平台参与度或仅仅出于天真的利他主义,就奉上自身工作成果的内容创建者,养活了亚马逊、Facebook 和谷歌之类公司。与其让谷歌暴富,不如建个点击工作也能学习的市场。
初创公司 Intuition Machines 认为,肯定有更好的方式,一种涉及机器学习(软件)和区块链的方式。
谷歌以其网页排名 (PageRank) 算法首开利用网上潜在劳动力的先河,该算法捕获链向喜爱网站的动作,以此改善其搜索结果的相关性。
十年前,谷歌从卡内基梅隆大学计算机科学家手中获得了 reCAPTCHA,开始将人们试图证明自己并非机器人程序的点击操作,转化成改善其文本数字化、图像标注和机器学习项目的数据。听起来好像人人受益,但最大赢家还是谷歌。
Intuition Machines 认为,这种被委婉称作大规模协作的劳动,相当于每天 100 人年众包劳动力,其价值完全可以通过今年早些时候发布的竞价系统 hCaptcha 加以分配,且这种分配方式更为合理。
互联网用户不应太过兴奋——他们没机会套现自己几乎不值什么钱的劳动力。但只要有足够的用户解答 CAPTCHA(区分计算机与人类的全自动图灵测试)问题,网站就能将这一点点的小钱聚起来变成一定的收益。而需要有效数据分类的公司也可以得到更高效的市场来处理此类任务。
hCaptcha 团队估测,通过黑掉服务来破解 reCAPTCHA v3 问题的成本大约是每 1000 个解答 1 美米及以下,或者说每个解答 0.001 美米或更少。而图像分类的成本,以亚马逊 Mechanical Turk 为例,在每幅图像 0.03 – 1 美米之间,高了不止一点半点。
所以,至少按 hCaptcha 团队的计算,二者的价差相当于谷歌这些年来从 reCAPTCHA 点击上渔利数十亿美米。
Intuition Machines 宣称,可以通过竞拍点击劳动力,帮助 Web 内容提供商共享这一收益。该公司称,提供大量 hCaptcha 问题的大型内容提供商可享有相当于每月 1000 美米或更多的以太坊令牌收益。
该公司在去年发布其贝塔测试时解释称:hCaptcha 背后是 HUMAN 协议,一个运行在以太坊区块链上的开放去中心化人力协议。
这能带来许多好处:开放账本可证明我们公平分配奖金;Human Token(以定制 Bulk API 兼容 EIP20 的令牌)能执行高效微支付;还有创新的机制能以资本高效的方式扩展双边市场等等。
竞价成功者向网站访问者呈现 hCaptcha 问题,完成有助竞价者数据收集目标的任务,比如对象识别、属性检测、相关度排名、边界检测和图像文本识别。甚至用户都能从该交易中获益,得到更好的人机消岐体验,至少该公司是这么说的。
大棒与胡萝卜
Intuition Machines 宣称,谷歌并不想让自己的机器人程序检测真正出色,因为这么做会削减其广告收益。
在 7 月 17 日的博客文章中,该公司称:如果正式确定看到广告或点击链接的用户其实是机器人程序,那谷歌就不能收取向该用户展示广告的费用。这种利益冲突极大限制了谷歌的反机器人程序决心。
该公司宣称,谷歌没开发追溯式机器人程序检测系统,而这种系统能够梳理日志文件以发现广告欺诈和分发退款;这就说明谷歌这家广告公司丝毫不想把 reCAPTCHA 做好。
提供追溯式机器人程序识别,会让谷歌面临怎样给为欺诈流量花钱的广告商退款的棘手问题。reCAPTCHA 产品因而十年来毫无进步。
为支持自己的论点,Intuition Machines 指出,解决 reCAPTCHA 问题的服务收费自 2016 年以来就没变过了。所以,自那以后无论谷歌什么时候做了改进,都没能让其人机识别挑战问题更难以破解,至少从钱数来看是这样的。
英国媒体 The Register 请该公司提供更具体的数据验证 hCaptcha 和 reCAPTCHA 的性能。但该公司称,有服务条款限制,只能静待第三方来提供这些数据。
与此类似,客户也得授权 Intuition Machines 谈论其 hCaptcha 使用情况才行。而公司企业显然不想被人知道自己依赖外部供应商来改善自身机器学习能力。
另外,CAPTCHA 系统的比较也是很难办的。简单地从 reCAPTCHA 切换到 hCaptcha 可大幅降低机器人程序创建虚假账户的情况,但这未必是因为其技术更加先进。也有可能是因为攻击该网站的机器人程序脚本正好是专为 reCAPTCHA 设计的。只要针对 hCaptcha 调整脚本,其机器人程序弹出率就可能会降低了。
2668 篇文章