蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI這年頭,就連喵星人也有自己的語音資料集了。沒錯,來自米蘭大學計算機系的幾位猛男,和生物系、獸醫系的小夥伴們一起,收集了21只貓
2021-06-25 12:33:18
蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI
這年頭,就連喵星人也有自己的語音資料集了。
沒錯,來自米蘭大學計算機系的幾位猛男,和生物系、獸醫系的小夥伴們一起,收集了21只貓咪的400+條語音資料,做了個貓叫聲資料集。
這21只貓咪中,包括10只成年緬因貓和11只成年歐洲短毛貓,是長毛和短毛貓咪中的代表類型。
不少網友下載後表示:
痴漢笑半小時了,根本幹不了活啊!
3種貓咪叫聲,總長21分鐘
製作這個資料集的初衷,是為了人類能更好地理解貓咪叫聲的含義,為以後的人-貓溝通作準備。
因此,在製作資料集時,研究者們選擇了3種讓貓發出不同叫聲的場景:
等待投喂:主人餵食前的貓叫聲。被放到陌生環境下隔離:將貓運送到一個陌生環境,車程不超過半小時,被隔離前會與主人先相處半小時。隔離時的貓會發出叫聲。刷牙:主人給貓刷牙時的貓叫聲。在這些場景中,每次收集貓叫的時間不超過5分鐘(例如,5分鐘後就會給貓餵食)。
為了讓語音資料更清晰、且不影響貓的日常行動,研究者們採用了一個不到50g的小型麥克風,掛在貓脖子上。
在清除了不包含貓叫聲的片段後,研究者們將這些叫聲錄音剪下成平均長度1.82s、方差0.37s左右的錄音檔案,共448個片段,其中緬因貓196個,歐洲短毛貓是252個,總時長約21分鐘。
這是收集到的3種類型的叫聲,從左至右依次為等待投喂、被隔離和刷牙:
為了準確識別貓咪在這3種情況下的叫聲,研究者們還做了一個機器學習模型。
無關貓咪種類,識別效果90%以上
研究者們採用了模式識別的方法,演算法框架是一個有向無環圖。
簡單來說,先區分貓叫聲是否屬於「等投喂」和「被隔離」兩種狀態,再識別它們是否屬於「刷牙」的狀態。
為了驗證哪種模型對於識別3種貓咪語音狀態更有效,研究者們採用了不同的模型進行實驗,最後確定了有向無環圖中的隱馬爾科夫模型,識別率最高能達到95.94%。
經過實驗,「等待投喂」的貓咪叫聲能被完美識別,達到了100%;「刷牙」的貓咪叫聲識別率達到了第二,平均在95.24%,有一定概率被識別成「等待投喂」;「被隔離」的貓咪叫聲識別率在92.59%,有一定概率被識別成「刷牙」。
三種狀態的識別效果都在90%以上,也算是一個不錯的模型了。
這項研究、以及貓叫資料集的製作,來自米蘭大學計算機系的3位猛男,以及生物學系和獸醫系的小夥伴們,所有人在這項研究中的貢獻相同。
網友:哪有心思搞科研
發現這個資料集後,不少網友第一反應:居然連這都有?
已經有網友,開始試圖搞懂、甚至已經聽懂資料集的「詳細內容」了:
有網友嗅到了裡面的商機:
還有網友調侃,根本沒心情搞科研,只剩開心了。
當然,除了貓咪叫聲,也有不少網友提出,想要其他的聲音資料集:
相關文章
蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI這年頭,就連喵星人也有自己的語音資料集了。沒錯,來自米蘭大學計算機系的幾位猛男,和生物系、獸醫系的小夥伴們一起,收集了21只貓
2021-06-25 12:33:18
中芯國際,遠見性抉擇真的很給力!去年因為蔣尚義的加入,梁孟鬆提交了一份辭職信,這份辭職信爆炸性內容不單單是對於中芯國際而言,對於國內半導體而言都足夠的震撼。比如其中梁孟鬆
2021-06-25 12:32:23
榮耀50系列釋出已經有一段時間,從之前預約的情況的來看,榮耀50系列的預約已超百萬。今日10:08正式開售,目前貨源充足。榮耀50系列由榮耀50 SE、榮耀50、榮耀50 Pro一共三款手機
2021-06-25 12:13:59
6月24日晚,微軟時隔6年釋出了Windows重大更新,推出了Windows 11。不同於廣大PC使用者已經熟悉的不能再熟悉的Windows 10,Windows 11並不單單是作業系統,更是微軟重磅打造的
2021-06-25 12:12:59
其實很少有所謂坑機,而使用者買的手機感覺用起來很差勁,更多是因為它的長處與你想要得到的體驗沒有產生碰撞,所以踩不踩坑這個問題,主要還是看個人,而不是手機。在大家購買上半年
2021-06-25 12:12:41
CVPR作為計算機視覺和模式識別領域的世界級學術頂會,不僅是業界展示領先科技成果的平臺,也是探索學術前沿的平臺。AutoDL作為近年來AI領域最熱門的方向之一,被認為是下一代人工
2021-06-25 12:11:41