yhlhhhhh - 每日與生物工程斗智斗勇到謝頂祖源分析

基于e11祖源結果的神經網絡分類器

好久不見～先解釋一下，最近之所以在社區露面的少是因為在卷（bushi）建模國賽，所以如果有的時候回信息不及時還請見諒～
Anyway, 因為準備的過程中，卷大量的算法，其中就包括了神經網絡，于是我就突發奇想:那是不是用神經網絡對不同族群的e11結果訓練模型，再分類，是不是可以實現大批量未知民族樣本的族群預測。
于是本著有什么想法都要試試的好奇心，我打開了MATLAB軟件，一開始以hapmap數據集為例，用貝葉斯優化試著跑了一遍，找到了一個比較好的超參數，最后發現準確度不錯，92%，所以我又接著用HGDP亞洲部分數據集進行訓練，發現結果也不錯，也是90%左右。接著分析混淆矩陣，發現一些類別容易混淆，接著又合并了一些類別。
最終，確定類別為9類，其混淆矩陣如下:?

神經網絡結構如下圖:?

接著為了方便各位使用我還特意寫了python腳本，準確度最高是99.29%（因為MATLAB氪金費用。。。不菲。。。，而且MATLAB本身體積也很大）如下圖:

現在也開源在我的GitHub上了～歡迎大家下載和pull request～
https://github.com/yhlhhhhh/Ancestor-predictor-for-Asian
未來展望的話就是能對跨族混血人群友好一些吧，能加入混血機制～其次就是用GAN（生成對抗網絡）實現更多人群的分類。

2022-08-02 ? IP屬地北京

按熱門排序按默認排序

5 個回復

yhlhhhhh

- 每日與生物工程斗智斗勇到謝頂

現在混合機制已經出來了。原理就是利用神經網絡的輸出層每個節點的權重相對于個人的z得分，為正的則說明該成分較其他成分而言較為顯著，對篩選出的成分的權重再進行求平均，即可得到結果。算法的好處就是相對于vahaduo的操作來說是直接自動定k值（也就是混合族群數）的。得益于這個算法篩選比較嚴格，所以說在原基礎上我們又增加了藏族、回族類，并且將原來的漢族類分為了南漢類和北漢類，未來可能還會加入中部漢類以及更多類。