当前位置:首页 > 软件资讯 > 只需 15 分钟,iPhone 就能「复制」你的声音

只需 15 分钟,iPhone 就能「复制」你的声音

分区:软件资讯 更新:2023-06-11 11:50:41

史蒂芬霍金的“机械电子声”可能是世界上最容易辨认的声音之一。

但这不是霍金自己的声音。

在霍金因ALS 而失去说话能力的时候,技术不足以让他发出自己的声音。事实上,很少有人能够使用语音合成器。

如今,虽然ALS患者在语音合成方面有了更多选择,但总体成本和时间门槛仍然不低,普及程度有限。

近日,苹果公布了一项全新的无障碍功能Personal Voice(尚未上线),不仅可以让用户免费“备份”自己的声音,更是安全应用AI技术的一次有趣尝试。

  只需 15 分钟「调教」,就能生成你的声音

图片来自Fastcompany

在生成式AI 可以模仿一切的时代,用AI 模仿人的声音听起来并不新鲜,感觉像是一种安全风险。

我比较好奇的是苹果是如何安全高效的实现Personal Voice功能的。

据介绍,iPhone、iPad和Mac用户只需根据提示录制15分钟的音频,苹果就会在设备端基于机器学习技术生成与用户相同的语音。

相比之下,为失语症人群提供专业语音合成服务的公司,可能需要使用专业设备录制数小时的语音素材,价格可达数百美元起。

另一项新的无障碍功能Live Speech允许用户在拨打电话、FaceTime或与他人面对面交谈时输入文本生成语音内容,为失语或不便说话的用户提供另一种方式。

结合Personal Voice 和Live Speech 两种功能,失语症用户可以使用接近其原始语音的生成语音与他人交流。

使用起来很方便,但是如何防止有人利用从网上捡来的语音素材生成别人的语音呢?

材料随机化。

在录制15分钟语音素材的过程中,苹果会随机生成需要用户朗读的内容,减少他人猜测素材的可能性。

物理距离障碍。

录音过程中,用户需要在距离设备6-10英寸(约15-25厘米)的特定空间内完成录音。

在生成过程中,所有数据都会通过苹果的神经引擎(Neural Engine)在设备本地完成,不需要上传到云端进行处理。

语音合成后,第三方应用如果要使用Personal Voice,必须获得用户的明确授权。

即使第三方应用被授权使用,Apple也会采取额外的后台保护措施,确保第三方应用无法获取Personal Voice以及用户之前录制的语音素材。

如果你是苹果“全家桶”用户,在生成自己的Personal Voice后,还可以通过iCloud同步到不同设备,并进行端到端加密。

  自己的声音,失去了才懂多重要

人是情感动物,声音是一种情感性很强的触发设备。

研究表明,当一个人听到母亲的声音时,身体释放的催产素水平与拥抱母亲时产生的催产素水平相似。另一项研究指出,听到自己的声音会增加一个人的自我激励。

这听起来有点抽象。

但是当我们失去它时,它的重要性就显而易见了。

2021 年3 月,露丝布伦顿(Ruth Brunton) 被诊断出患有ALS。那年圣诞节,她无言以对。

大约25% 的肌萎缩侧索硬化患者患有“延髓起病”型肌萎缩侧索硬化,通常表现为言语或吞咽困难。此类患者说话会逐渐变得含糊不清、有鼻音,甚至失语。

布伦顿的动作非常果断。确诊后,他马上找了一家公司做语音生成。

来来回回花了一个月的时间,记录了3000多句的语料,但最终的结果并不理想。

该公司使用一种称为“单位选择”的技术。

简单粗暴地说,就是通过“拼接”实现语音生成,将语料拆分成大量的小语音单元,然后根据需要将元素拼接在一起。

在单元选择技术下,“Bob”这个词可以拆分成不同的拼音元素,图片来自《华盛顿邮报》

这种技术产生的语音可以听得很清楚,但是会有点电子味,听起来不自然。

结果,布伦顿录制的语料库与来自微软的一种名为“Heather”的声音相结合。不仅声音不像自己的,还逼着英国人用美国口音“说话”。

被这种声音所困,布伦顿“只会在必要的时候说话,不再是因为他想说话”。

与丈夫的调情聊天消失了,布伦顿也不太愿意参与集体谈话。

即使是用一种听起来不像你自己的声音说“我爱你”,也似乎失去了意义。

六个月后,布伦顿和她的丈夫找回了原来录制的语音素材,找到了另一家公司,用人工智能技术合成了一个更像她自己的声音:

这听起来可能很傻,但恢复声音让我更有信心。

波士顿儿童医院“增强沟通”项目的负责人约翰科斯特洛(John M. Costello) 注意到,使用更真实生成的语音的患者似乎能够与亲近的人建立更深层次的联系。

对于2022 年圣诞节,“恢复了新声音”的布伦顿还用语音录制了节日信息。

然而,圣诞节刚过,布伦顿染上新冠,终于在今年2月份离世。

她离开的那天晚上,她的丈夫大卫彻夜牵着她的手:

我们还有两年的时间要说再见。

我们同意了,我们想说什么就说什么。

很难想象,如果Brunton 没有换成更像她自己的声音,她会不会很自在地说出她想说的任何话。

无障碍思维点亮灵感,AI点燃生产力

我一直认为,无障碍设计所挖掘的其实是人类多样性所创造的想象力资源。

我们去到那些和自己有着完全不同生活经历的人那里,去倾听那些鲜为人知的故事和经历,创造一种我们以前从未想过,但又对更多人友好的新生活方式。

Personal Voice可以让ALS失语症患者重新获得自己的声音;也可以帮助我在体验“刀锋嗓音”后,用自己的声音与他人交谈;甚至,我都难以避免地想象自己是否应该用这个“备份”的声音留给身边的人,免得有一天突然死去。

而AI技术就是要实现这些富有想象力的生产力。

正如杜小编之前所言,虽然赶不上生成式AI的精彩,但苹果一直在用AI来提升用户体验——,以提高效率和保护隐私。

提高效率在于改进本地执行的机器学习算法和模型。

除了Personal Voice 之外,Apple 此次预览的另一个辅助功能Point and Speak 也在本地设备端使用了机器学习技术。

未来,视障用户可以通过结合iPhone内置扩音器中的Point and Speak和旁白功能,用自己的手指将iPhone变成“点读机”——,让iPhone阅读给你的文字。

去年的“门检测”功能的工作原理类似,让设备端的机器学习帮助视障用户识别门,并阅读门上和周围标志的信息。

至于隐私,根据乔布斯的说法,“如果你需要他们(用户)的数据,请问他们(用户)。每次。”

这在无障碍设计方面也尤为重要—— 因为这些功能设计的本源是服务于被所谓“常规设计”所忽视的人群,往往是更弱势的群体,因此更需要确保这些用户的隐私没有受到侵犯。

在此背景下,我们也可以展开更多关于数据应用权利和透明度的讨论。

苹果这次在做Personal Voice 的时候,是和Team Gleason Foundation 合作的,这是一个帮助ALS 患者的非营利组织。

Team Gleason Foundation CEO Blair Casey(右)

该机构的CEO Blair Casey 一直在推动语音生成公司制定一套标准的录音素材设置,让用户可以直接录制这部分素材,体验不同公司生成的语音效果,而不是“盲目投注”就是现在。 ”。

同时,Casey 还主张语音生成公司向用户提供录制好的语音素材数据(因为很多用户录制后可能会丢失语音),这样他们就不想在未来将这些数据用于其他技术:

如果有更好的技术出来,你难道不想尝试一下吗?

如果您无法取回您的语音素材,则无法尝试。

人工智能可能是我们这个时代最伟大的生产力。

然而,如何运用这股力量,或许以人为本的无障碍设计能给它很多指导。

  • 最新资讯
  • 最新软件