谷歌推出录音程序Recorder智能处理海量音频信息

时间:2019-12-25 11:34:01 阅读：1459+ 作者：责任编辑NO。郑子龙0371

编者按：本文来自微信公众号“将门创投”（ID：thejiangmen），36氪经授权发布。

对于冗长的会议、复杂的课程、高强度的采访来说，记笔记很多时候已经无法满足海量涌来的信息了，用录音笔或者手机录音成为记录信息的常用方式。但要从几个小时的录音中寻找到关键的信息却让人十分抓狂。如果我们也可以拥有一个智能录音机，可以实时转录并标记长时间的录音内容，帮助我们像搜索文本图像一样迅速定位找到相关信息，那该多好！

为了解决这一问题，让人们更为便捷地检索录音中感兴趣的信息，谷歌为Pixel开发了一个名为Recorder的应用，将移动端机器学习的最新进展应用于对声音、对话的记录和转写、检测和识别特定类型的音频（包括语音、音乐、掌声、口哨、音乐等等）并为录音信息编制了有效的索引，从而帮助用户都能够快速地寻找到感兴趣的录音片段。值得一提的是，所有这些都可以在设备端离线运行，无需网络和云服务的支持。

音频转录

这一app的背后是一个高性能的移动端语音识别模型，它可以轻松又有效可靠地对长达几个小时的录音进行撰写，同时在撰写的过程中还可以将单词映射到时间戳上建立有效的索引。

支持实时语音转写的RNN-T模型

这样用户就可以在单击撰写结果的一个单词时跳转到录音中对应的时刻开始播放，也能够最终靠对特定词语的搜索直接跳转到录音中对应的时间点，使得录音也变得智能化、可以方便地检索。

基于音频分类的录音内容可视化

除了可以支持特定单词的检索，很多时候能够可视化地快速搜索音频中特定类型的内容更为有用。在Recorder中为音频中不一样内容的波形添加了不同的颜色，而这主要是通过基于CNN的音频分类模型来实现的。

用于训练CNN音频分类模型的数据集

虽然很多时候周围存在着嘈杂的多种声音，但Recorder中会根据某一时间段内(50ms)最主要的声音来为音频添加上对应分类的颜色标签。基于色彩的粗粒度视觉检索方式可以让用户直观地了解录音中的声音类型的分布比例，同时也为相关信息的检索提供了便利。

为了实现这一功能，录音软件利用滑动窗口的方法来对960ms长度的录音做处理，每隔50ms的间隔输出一个表示对应声音类别的概率。此外研究人员还利用线性化与阈值等机制对概率得分做处理，得到了更为精确的内容分类结果。

由于模型对于每个音频帧进行独立地分析，从而可以适应音频帧间不一样的快速变化。通过自适应尺寸的中值滤波器技术对分类结果做处理，就能得到平滑且连续的输出。同时模型和前后处理也满足高效的能耗要求，以便适应移动端严格的功耗限制。

自动标签建议

录音结束后，程序还能够根据内容自动生成三个最具代表性的标签，帮助用户快速构建文件标题。

为了能够在转写结束就生成标签建议，程序在转录过程中就会对单词数量、重要性做多元化的分析；同时也会将识别出的专有名词转为大写。然后使用设备端的词性标注器来根据语法标注每一个词的词性，检测出用户更容易理解和记忆的词。最后利用决策树的方式生成词语等分，并输出排名靠前的词语作为标签。

录音建议标签抽取流程

小程序大身手

虽然只是一款小小的录音机程序，但其中集成了很多机器学习技术，特别是要在设备端离线准确运行如此长时间的语音识别模型是十分不易的。设备端的运行不仅提高了用户使用的体验，同时也保护了用户隐私不受侵犯。通过对于需求的挖掘和机器学习技术的充分的利用，小小的录音机也能成为人们高效工作的大帮手！从内容到图像，从视频到声音，让一切信息变得更容易搜索和触达，期待谷歌未来能够推出更好的服务。

From:Google，编译:T.R

ref：Recorder:https://play.google.com/store/apps/details?id=com.google.android.apps.recorderRNN-T:https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.htmlhttps://ai.googleblog.com/2017/03/announcing-audioset-dataset-for-audio.htmlhttps://research.google/pubs/pub45611/

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

上一篇：BBS发明人逝世他曾发明了一个年代

下一篇：纽约市拟立法用无人机替代人去查看建筑物质

谷歌推出录音程序Recorder智能处理海量音频信息

音频转录

自动标签建议

小程序大身手

最新资讯

Arm Tech Symposia 年度技术大会顺利收官，继续构建面向未来的 AI 计算平台

见证5G成长,进博会是高通展示合作成果的重要平台

进博会孟樸分享,从3G到5G,高通携手中国伙伴在全球市场合作共赢

小生意，大爆发｜八大行业双11策略划重点

Arm Cortex-X925 实现IPC提升, 集成特有 SVE2 功能，Arm 技术重塑消费电子设备性能标杆

西门子2024 Realize LIVE用户大会：拥抱新质生产力，激发数智新动能

阅读推荐

2024爱企查毕业季校园行：构建诚信就业市场，为成电、广大学子保驾护航

毕业不慌，查厉来帮｜爱企查携手西电学子深度体验品牌魅力

史上最刺激的闪购，淘宝百亿补贴凌晨放大招，真梦里啥都有！

全国人大代表刘宏志：推动数字乡村建设、激发乡村振兴“数智力量”

这不是一台单纯的打印机爱普生迪士尼草莓熊墨仓式打印机L4266体验

“千翼飞舞天际 5G闪耀广州”2023数字科技生态大会 11月10日中国·广州震撼来袭