19快速倾听和总结音频内容

北京哪家治疗白癜风最好 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/nxbdf/

Hi，大家好，我是茶桁。

其实到第18章的时候，我们处理文本的内容就全部都结束了，从本节课开始，我们要开始学习如何处理音频和图像。

我不知道有没有人和我一样的习性，就是比起视频和音频文件来说，还是跟喜欢看文本文件。这其中最主要的一个原因就是因为文本内容我们可以准确定位，而对于文本内容的接收速度还取决于我们输入设备（眼睛和处理信息的脑部）速度。而音频或者视频则不然，我们必须听完讲述者所说的话，即便你开到2倍速，速度依然受限，而且无法准确定位。那有没有什么办法能快速完成对音频文件内信息的获取呢，自然就是将语音内容转换成文本的能力。

其实到这一步，类似于Premiere或者剪映等剪辑软件都可以完成，不仅如此，在AI大行其道的今天，市面上应该也有不少Audio2Text的服务或者应用。接下来，我们要讲的就是一个杀手级服务了。

没错，我要说的自然就是OpenAI，和大多数人对OpenAI的固有印象不同的是，OpenAI其实早就发布了一个通用的语音识别模型「Whisper」，还将对应的代码开源了。并且在今年1月份的时候，API内也提供了对应的语音识别服务。

下面我们来一起看看这个Whisper到底可以怎么用（那些需要总结会议内容，还有总结其他人语音教程的人有福了。）

WhisperAPI

我自己其实是播客的重度使用者，不仅是Apple自己的播客内找源，还会寻找其他的优秀源，比如「少数派」的播客内容。以前上班通勤时长一个半小时，来回就是三个小时，大把的时间在地铁里听音频。

可是这里有一个问题，就是在筛选优质播客源的时候，我只能通过标题和简介来做判断，并不能直接判断内容到底是不是自己感兴趣的，或者到底质量如何。而Whisper和ChatGPT出现之后，立马眼里放光，这不正好完美解决我的需求吗：通过Whisper把我想要听的语音转成文字，然后再让ChatGPT帮我做小结，用于判断这个内容到底是否符合我的口味。

这个网站（listennotes）不仅可以搜索播客，还能够下载到播客的源文件。而且，该网站还具有一个非常实用的功能，能够直接切出播客中的片段并创建切片（clip）。在课程的最后的随堂数据中，已下载好了MP3文件。此外，我们可以尝试使用Whisper的API对小片段进行处理，相应的切片链接和资源我会放在文章末尾。

OpenAI提供的WhisperAPI非常简单，只需调用transcribe函数即可将音频文件转录为文字。

importopenai,osopenai.api_key=os.getenv("OPENAI_API_KEY")audio_file=open("./data/podcast_clip.mp3","rb")transcript=openai.Audio.transcribe("whisper-1",audio_file)print(transcript[text])

输出结果：

欢迎来到Onboard真实的一线经验走新的投资思考我是Monica我是高宁我们一起聊聊软件如何改变世界大家好欢迎来到Onboard我是Monica自从OpenAI发布的ChatGBT掀起了席卷世界的AI热潮不到三个月就积累了超过一亿的越货用户超过万的日货用户真的是展现了AI让人惊讶的也让很多人直呼这就是下一个互联网的未来有不少观众都说希望我们再做一期AI的讨论于是这次硬核讨论就来了这次我们请来了GoogleBrain的研究员雪芝她是Google大语言模型PALMPathwayLanguageModel的作者之一要知道这个模型的参数量是GPT-3的三倍还多另外还有两位AI产品大牛一位来自著名的StableDM背后的商业公司StabilityAI另一位来自某硅谷科技大厂也曾在吴恩达教授的LandingAI中担任产品负责人此外莫妮凯还邀请到一位一直

转载请注明：http://www.xbkqw.com/rcbj/97069.html

上一篇文章：如何取书名下

下一篇文章：没有了