猛男把400+條貓咪叫聲做成資料集，可識別貓的3種不同狀態丨開源

2021-06-25 12:33:18

蕭簫發自凹非寺量子位報道 | 公眾號 QbitAI

這年頭，就連喵星人也有自己的語音資料集了。

沒錯，來自米蘭大學計算機系的幾位猛男，和生物系、獸醫系的小夥伴們一起，收集了21只貓咪的400+條語音資料，做了個貓叫聲資料集。

圖片

這21只貓咪中，包括10只成年緬因貓和11只成年歐洲短毛貓，是長毛和短毛貓咪中的代表類型。

圖片

不少網友下載後表示：

圖片

痴漢笑半小時了，根本幹不了活啊！

3種貓咪叫聲，總長21分鐘

製作這個資料集的初衷，是為了人類能更好地理解貓咪叫聲的含義，為以後的人-貓溝通作準備。

因此，在製作資料集時，研究者們選擇了3種讓貓發出不同叫聲的場景：

等待投喂：主人餵食前的貓叫聲。被放到陌生環境下隔離：將貓運送到一個陌生環境，車程不超過半小時，被隔離前會與主人先相處半小時。隔離時的貓會發出叫聲。刷牙：主人給貓刷牙時的貓叫聲。在這些場景中，每次收集貓叫的時間不超過5分鐘（例如，5分鐘後就會給貓餵食）。

為了讓語音資料更清晰、且不影響貓的日常行動，研究者們採用了一個不到50g的小型麥克風，掛在貓脖子上。

圖片

在清除了不包含貓叫聲的片段後，研究者們將這些叫聲錄音剪下成平均長度1.82s、方差0.37s左右的錄音檔案，共448個片段，其中緬因貓196個，歐洲短毛貓是252個，總時長約21分鐘。

這是收集到的3種類型的叫聲，從左至右依次為等待投喂、被隔離和刷牙：

圖片

為了準確識別貓咪在這3種情況下的叫聲，研究者們還做了一個機器學習模型。

無關貓咪種類，識別效果90%以上

研究者們採用了模式識別的方法，演算法框架是一個有向無環圖。

簡單來說，先區分貓叫聲是否屬於「等投喂」和「被隔離」兩種狀態，再識別它們是否屬於「刷牙」的狀態。

圖片

為了驗證哪種模型對於識別3種貓咪語音狀態更有效，研究者們採用了不同的模型進行實驗，最後確定了有向無環圖中的隱馬爾科夫模型，識別率最高能達到95.94%。

圖片

經過實驗，「等待投喂」的貓咪叫聲能被完美識別，達到了100%；「刷牙」的貓咪叫聲識別率達到了第二，平均在95.24%，有一定概率被識別成「等待投喂」；「被隔離」的貓咪叫聲識別率在92.59%，有一定概率被識別成「刷牙」。

圖片

三種狀態的識別效果都在90%以上，也算是一個不錯的模型了。

這項研究、以及貓叫資料集的製作，來自米蘭大學計算機系的3位猛男，以及生物學系和獸醫系的小夥伴們，所有人在這項研究中的貢獻相同。

圖片

網友：哪有心思搞科研

發現這個資料集後，不少網友第一反應：居然連這都有？

圖片

已經有網友，開始試圖搞懂、甚至已經聽懂資料集的「詳細內容」了：

圖片

有網友嗅到了裡面的商機：

圖片

還有網友調侃，根本沒心情搞科研，只剩開心了。

當然，除了貓咪叫聲，也有不少網友提出，想要其他的聲音資料集：

圖片