陣列麥克風關鍵技術與普通的有哪些不同

時間:2020-07-02 20:21 來源:ob体育竞彩

麥克風陣列是其中一個狹義概念，特指應用於語音處理的按一定規則排列的多個麥克風係統，也可以簡單理解為2個以上麥克風組成的錄音係統。

　麥克風陣列一般來說有線形、環形和球形之分，嚴謹的應該說成一字、十字、平麵、螺旋、球形及無規則陣列等。至於麥克風陣列的陣元數量，也就是麥克風數量，可以從2個到上千個不等。這樣說來，麥克風陣列真的好複雜，別擔心，複雜的麥克風陣列主要應用於工業和國防領域，消費領域考慮到成本會簡化很多。

消費級麥克風陣列的興起得益於語音交互的市場火熱，主要解決遠距離語音識別的問題，以保證真實場景下的語音識別率。這涉及了語音交互用戶場景的變化，當用戶從手機切換到類似Echo智能音箱或者機器人的時候，實際上麥克風麵臨的環境就完全變了，這就如同兩個人竊竊私語和大聲嘶喊的區別。

消費級的麥克風陣列主要麵臨環境噪聲、房間混響、人聲疊加、模型噪聲、陣列結構等問題，若使用到語音識別場景，還要考慮針對語音識別的優化和匹配等問題。為了解決上述問題，特別是在消費領域的垂直場景應用環境中，關鍵技術就顯得尤為重要。

噪聲抑製：語音識別倒不需要完全去除噪聲，相對來說通話係統中需要的技術則是噪聲去除。這裏說的噪聲一般指環境噪聲，比如空調噪聲，這類噪聲通常不具有空間指向性，能量也不是特別大，不會掩蓋正常的語音，隻是影響了語音的清晰度和可懂度。這種方法不適合強噪聲環境下的處理，但是應付日常場景的語音交互足夠了。

混響消除：混響在語音識別中是個蠻討厭的因素，混響去除的效果很大程度影響了語音識別的效果。我們知道，當聲源停止發聲後，聲波在房間內要經過多次反射和吸收，似乎若幹個聲波混合持續一段時間，這種現象叫做混響。混響會嚴重影響語音信號處理，比如互相關函數或者波束主瓣，降低測向精度。

回聲抵消：嚴格來說，這裏不應該叫回聲，應該叫“自噪聲”。回聲是混響的延伸概念，這兩者的區別就是回聲的時延更長。一般來說，超過100毫秒時延的混響，人類能夠明顯區分出，似乎一個聲音同時出現了兩次，我們就叫做回聲，比如天壇著名的回聲壁。實際上，這裏所指的是語音交互設備自己發出的聲音，比如Echo音箱，當播放歌曲的時候若叫Alexa，這時候麥克風陣列實際上采集了正在播放的音樂和用戶所叫的Alexa聲音，顯然語音識別無法識別這兩類聲音。回聲抵消就是要去掉其中的音樂信息而隻保留用戶的人聲，之所以叫回聲抵消，隻是延續大家的習慣而已，其實是不恰當的。

聲源測向：這裏沒有用聲源定位，測向和定位是不太一樣的，而消費級麥克風陣列做到測向就可以了，沒必要在這方麵投入太多成本。聲源測向的主要作用就是偵測到與之對話人類的聲音以便後續的波束形成。聲源測向可以基於能量方法，也可以基於譜估計，陣列也常用TDOA技術。聲源測向一般在語音喚醒階段實現，VAD技術其實就可以包含到這個範疇，也是未來功耗降低的關鍵研究內容。

波束形成：波束形成是通用的信號處理方法，這裏是指將一定幾何結構排列的麥克風陣列的各麥克風輸出信號經過處理（例如加權、時延、求和等）形成空間指向性的方法。波束形成主要是抑製主瓣以外的聲音幹擾，這裏也包括人聲，比如幾個人圍繞Echo談話的時候，Echo隻會識別其中一個人的聲音。

陣列增益：這個比較容易理解，主要是解決拾音距離的問題，若信號較小，語音識別同樣不能保證，通過陣列處理可以適當加大語音信號的能量。

模型匹配：這個主要是和語音識別以及語義理解進行匹配，語音交互是一個完整的信號鏈，從麥克風陣列開始的語音流不可能割裂的存在，必然需要模型匹配在一起。實際上，效果較好的語音交互專用麥克風陣列，通常是兩套算法，一套內嵌於硬件實時處理，另外一套服務於雲端匹配語音處理。

上一篇：裝修房子多媒體盒子去掉好嗎
下一篇：弱電箱放有線路由器客廳放無線路由器怎樣做

看過《陣列麥克風關鍵技術與普通的有哪些不同》的人還看了以下文章

	三層交換機可以作為普通的二層交換機使用嗎
	我們目前使用的網絡，是一個分層次的網絡。osi參考模型是七層，第一層我們的物理層，他使用電壓或者電流的形式來表示數據。第二層是數據鏈路的層，使用MAC地址也就是網卡的物理地址來，作為依據進行數據交換。三層使用ip地址來進行數據的交換！如果沒有特別...

	POE攝像頭接入普通的交換機需加裝什麼
	通常在攝像頭的前端加裝POE供電模塊就可以，但在使用時有幾點需要注意，分析一下。 POE攝像頭接入普通的交換機，需加裝POE供電模塊普通的交換機+PoE供電模塊其實也就相當於POE交換機，因此我們可以在攝像頭的前端加裝POE供電模塊，如圖所示: PoE供電模塊能...