亚洲精品午夜精品,日本二手网站,国产AⅤ爽AV久久久久成人社区,日本一二三区不收费av

使用 WeGene 需要啟用 Cookies, 請啟用后刷新頁面獲得更好的體驗
yhlhhhhh yhlhhhhh - 每日與生物工程斗智斗勇到謝頂 祖源分析

一種admix計算器E11結果的擬合方法----基于神經網絡算法的遺傳學族群分類擬合(E11T15)

思路
? ? ? 我們首先以每個人只有一種成分為例,這個時候則相當于將整個問題看成了分類問題。我們可以發現之前的算法大多都是基于無監督學習而實現分類的,而無監督學習的特點則是沒有標簽數據,而是算法本身實現分類。這也是無監督學習的缺點之一,因為沒有標簽數據同時帶來的就是數據可讀性會變差,需要進一步分析才能得出結論。
? ? ? 因此我們摒棄之前的無監督學習算法的思路,嘗試使用監督學習。所以我們使用目前準確度比較高的神經網絡模型進行分類。當每個人混合族群數為1個時,輸出層概率最高的節點(成分)則為結果。當每個人混合族群為多個時,我們則先簡單的認為概率等于成分。
模型構建
1. 數據集
2. 特征工程
· 部分樣本的主成分分析情況
? ? ? 通過使用python sklearn庫的PCA進行降維,并使用seaborn中的scatterplot函數將降維后的數據生成散點圖,從而實現數據可視化。見下圖:

WechatIMG1917.jpeg

? ? ? 上圖例中Han代表未確定地域的漢族,CHB為北京漢族的簡寫,Han_NChina表示北方漢族。首先從散點圖整體來看,樣本內E11數據整體聚為4類:西南少數民族簇、漢族回族及南部少數民族簇、北部少數民族簇以及日本簇。
? ? ? 觀察每簇細節,通過觀察漢族及南方少數民族簇可以發現漢族整體與苗族整體重合,與回族簇大部分重疊,且回族與少部分蒙古族重疊。傣族與整個漢族簇有一定差別,但相較于簇與簇間的差距并不大。接著過觀察北部少數民族簇,發現本簇中大部分樣本相較于漢族回族及南部少數民族簇的散點圖分布總體都較為零散,且簇內部族群都會有一定的重合,值得注意的是在此簇中雅庫特人(一個在俄羅斯西伯利亞地區的民族)與簇內其他族群有一定的差異。再觀察西南少數民族簇,簇內藏族樣本明顯聚類效果較好,并且土族整體與藏族較為接近,其他族群樣本則較為分散。最后觀察日本簇,可知整體距離我國族群較遠,而簇內部整體分為兩小簇,綜合兩特征(PC1、PC2)來看其中距離漢族回族及南部少數民族簇較近的一簇應當是受到我國沿海地區成分影響而造成的。
? ? ? 從語言文化角度來看,我國主要有漢語語族、藏緬語族、蒙古語族、壯侗語族突厥語族等,而一個民族中往往又會有方言區分。與上面E11數據的主成分分析(主要體現遺傳因素)相比,我們發現了幾個比較有意思的現象。首先就是兩或多族群間,語族的劃分(語言的同源性)并不一定與遺傳學族群的同源性相關。以土族與蒙古族為例,兩族群的語言均屬于蒙古語族,但兩族群間的遺傳距離并沒有土族與藏族間的遺傳距離近。在針對這樣兩個或多個族群時我們應當明確我們的目標是為遺傳學族群分類,所以這種情況下兩族群應合并成一個大族群。其次,同一族群的E11數據主成分分析結果較為分散或族群簇跨度極大時,要酌情根據族群內部的文化差異劃分類別,以達到細化分類的目的。例如蒙古族的樣本較為分散,因為東部和西部的方言有差異,且東部和西部所重合的民族不同,根據遺傳因素優先考慮的原則,則會將東西部樣本劃分開,并與相近的其他族群組合成一個類別。
超參數確定
? ? ? 通過使用Matlab的可優化神經網絡,使用貝葉斯優化器的方法來找參數。確定隱藏層為20個節點,輸出層為14個節點,并確定隱藏層與輸出層l2正則化數均為1.9261e-06,隱藏層與輸出層的激活函數分別為sigmoid函數和softmax函數。使用神經網絡可視化工具得到的示意圖如下:

截屏2023-07-18_下午12.47_.39_.png

模型訓練
? ? ? 神經網絡模型的訓練過程,我們在服務器上采用了python中的keras庫進行訓練。我們根據以上超參數確定的部分的數據來進行設置,并迭代100次,發現準確度在97%-98%之間。
結果處理
? ? ? ?基本本處理方法目的是為了簡化結果,而在很多admix計算器中的痛點是因為各項指標不夠直接(一般是通過數值大小判斷)而導致判斷不準或過于主觀。因此解決此問題的關鍵則是根據相對于人群平均值來看用戶的某項指標是否顯著。因此我們使用z得分來處理。若z得分的值大于0,則用戶含該成分的概率顯著大于人群平均。最終只取顯著成分,并重新計算占比。
模型優化
? ? ? 在模型內測的時候我們發現,由于標桿設置的范圍并不是全球,導致部分國外樣本在跑模型時會出現比較詭異的結果,比如:韓國樣本跑出了50%北漢和南漢,新加坡馬來樣本跑出了11%鄂倫春,44%的回族和41%的拉祜族。所以在標桿上,又加入韓國以兼容部分國外樣本。
最終成分設置
? ? ? 北漢,南漢,嶺南漢,達翰爾-鄂倫春-赫哲,東部蒙古族-錫伯族,回族,日本,韓國,拉祜,納西-彝族,藏族-土族,維吾爾族,西部蒙古族-哈薩克族,雅庫特人以及壯族-傣族。
如何跑?
? ? ? emmmm因為這次成本相對來說比較大(服務器和軟件加起來大概花了接近1500),而且模型對性能要求也比較高的原因,所以采用支付寶付款+郵箱發數據的方式。價錢是5塊/次,差不多一桶泡面的價錢(比國外的祖源里面10刀一次那種便宜很多了)。付款后把記錄和e11結果發到我的郵箱,一般會在3天之內給到結果。(如果你實在不會跑e11結果的話,把原始數據郵箱發給我也行,我免費幫你跑一下e11)
「更新」
2023.8.12? 由于申請API成功,本服務將暫停使用,預計將在10月新網站投入使用。之前通過郵件發送的樣本仍會發送結果。
?
2023-07-18 ? IP屬地中國
按熱門排序    按默認排序

7 個回復

剛付了3個人的,幫忙分析一下謝謝,信息用郵箱發過去了
666~
我的結果是:
嶺南漢 12.59%
壯傣 87.41%
??的
先插眼
先插眼
大佬看看這啥情況?一直在蘇北住著,為啥有東北亞(0.73%)成分木好木好??

要回復問題請先登錄注冊

  • <track id="ffr4e"></track>

      <dfn id="ffr4e"></dfn>

      主站蜘蛛池模板: 乐清市| 雷波县| 龙山县| 保山市| 平潭县| 攀枝花市| 铜川市| 扎囊县| 崇州市| 武威市| 剑阁县| 祁阳县| 易门县| 屯留县| 宣汉县| 化州市| 瓦房店市| 梁山县| 施甸县| 堆龙德庆县| 鄂温| 车致| 陵川县| 安新县| 永昌县| 陇南市| 华蓥市| 买车| 江口县| 泸溪县| 治多县| 海安县| 贺兰县| 木兰县| 水城县| 冕宁县| 鄂州市| 蒙阴县| 新平| 石渠县| 博兴县|