首頁 > 科技

猛男把400+條貓咪叫聲做成資料集,可識別貓的3種不同狀態丨開源

2021-06-25 12:33:18

蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

這年頭,就連喵星人也有自己的語音資料集了。

沒錯,來自米蘭大學計算機系的幾位猛男,和生物系、獸醫系的小夥伴們一起,收集了21只貓咪的400+條語音資料,做了個貓叫聲資料集。

圖片

這21只貓咪中,包括10只成年緬因貓和11只成年歐洲短毛貓,是長毛和短毛貓咪中的代表類型。

圖片

不少網友下載後表示:

圖片

痴漢笑半小時了,根本幹不了活啊!

3種貓咪叫聲,總長21分鐘

製作這個資料集的初衷,是為了人類能更好地理解貓咪叫聲的含義,為以後的人-貓溝通作準備。

因此,在製作資料集時,研究者們選擇了3種讓貓發出不同叫聲的場景:

等待投喂:主人餵食前的貓叫聲。被放到陌生環境下隔離:將貓運送到一個陌生環境,車程不超過半小時,被隔離前會與主人先相處半小時。隔離時的貓會發出叫聲。刷牙:主人給貓刷牙時的貓叫聲。在這些場景中,每次收集貓叫的時間不超過5分鐘(例如,5分鐘後就會給貓餵食)。

為了讓語音資料更清晰、且不影響貓的日常行動,研究者們採用了一個不到50g的小型麥克風,掛在貓脖子上。

圖片

在清除了不包含貓叫聲的片段後,研究者們將這些叫聲錄音剪下成平均長度1.82s、方差0.37s左右的錄音檔案,共448個片段,其中緬因貓196個,歐洲短毛貓是252個,總時長約21分鐘

這是收集到的3種類型的叫聲,從左至右依次為等待投喂、被隔離和刷牙:

圖片

為了準確識別貓咪在這3種情況下的叫聲,研究者們還做了一個機器學習模型

無關貓咪種類,識別效果90%以上

研究者們採用了模式識別的方法,演算法框架是一個有向無環圖。

簡單來說,先區分貓叫聲是否屬於「等投喂」和「被隔離」兩種狀態,再識別它們是否屬於「刷牙」的狀態。

圖片

為了驗證哪種模型對於識別3種貓咪語音狀態更有效,研究者們採用了不同的模型進行實驗,最後確定了有向無環圖中的隱馬爾科夫模型,識別率最高能達到95.94%

圖片

經過實驗,「等待投喂」的貓咪叫聲能被完美識別,達到了100%;「刷牙」的貓咪叫聲識別率達到了第二,平均在95.24%,有一定概率被識別成「等待投喂」;「被隔離」的貓咪叫聲識別率在92.59%,有一定概率被識別成「刷牙」。

圖片

三種狀態的識別效果都在90%以上,也算是一個不錯的模型了。

這項研究、以及貓叫資料集的製作,來自米蘭大學計算機系的3位猛男,以及生物學系和獸醫系的小夥伴們,所有人在這項研究中的貢獻相同。

圖片

網友:哪有心思搞科研

發現這個資料集後,不少網友第一反應:居然連這都有?

圖片

已經有網友,開始試圖搞懂、甚至已經聽懂資料集的「詳細內容」了:

圖片

有網友嗅到了裡面的商機:

圖片

還有網友調侃,根本沒心情搞科研,只剩開心了。

當然,除了貓咪叫聲,也有不少網友提出,想要其他的聲音資料集:

圖片

IT145.com E-mail:sddin#qq.com