使用本網(wǎng)站需要啟用 JavaScript, 請啟用后刷新頁面獲得更好的體驗

亚洲精品午夜精品,日本二手网站,国产AⅤ爽AV久久久久成人社区,日本一二三区不收费av

<ul id="orwer"><em id="orwer"><small id="orwer"></small></em></ul>

<center id="orwer"></center>

社區(qū)首頁祖源討論區(qū) 討論詳情

yhlhhhhh - 每日與生物工程斗智斗勇到謝頂祖源分析

利用k均值聚類算法進行祖源分析

k均值聚類算法（kmeans）是機器學習中無監(jiān)督學習的一種聚類算法。
原理：
先隨機選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離，把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了，每個聚類的聚類中心會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。終止條件可以是以下任何一個：
1)沒有（或最小數(shù)目）對象被重新分配給不同的聚類。
2)沒有（或最小數(shù)目）聚類中心再發(fā)生變化。
3)誤差平方和局部最小。
------
我們以從某處（懂得都懂）獲取到的國內(nèi)人群祖源PCA二維數(shù)據(jù)為例
首先目前k值我們是未知的，所以我們先以CH系數(shù)為衡量聚類效果的標準，CH系數(shù)越高聚類效果越好。所以我們先求從3到20的CH系數(shù)。
代碼：

截屏2022-03-25_上午10.58_.27_.png

?
CH系數(shù)可視化：

截屏2022-03-25_上午11.02_.38_.png

?
因為k值越小（也就是分的類別越少）我們分析起來就越方便，所以我們遵從的規(guī)則是在保證CH系數(shù)的前提下盡量選擇小k值。根據(jù)可視化結果可以觀察出，k=5或許是個較好的選擇。
?
接著上代碼：

截屏2022-03-25_上午11.11_.39_.png

?
可視化聚類結果（紅色五角星為每一簇的質(zhì)心）

?
與原來帶標簽的散點圖對比：

截屏2022-03-25_上午11.16_.22_.png

?
將兩圖對比我們可大概分析出
質(zhì)心從左向右分別為：西北地區(qū)少數(shù)民族、西北地區(qū)漢族以及華北地區(qū)和少部分西南地區(qū)、華中東部、西南以及華東地區(qū)、華南地區(qū)。

2022-03-25 ? IP屬地北京

按熱門排序按默認排序

3 個回復

yhlhhhhh

- 每日與生物工程斗智斗勇到謝頂

順便補充一下5個質(zhì)心的坐標：
-3.04E-03,3.42E-04
-1.61E-02,-5.71E-02
1.10E-02,-4.41E-03
-6.22E-03,-6.66E-03
3.39E-03,-9.45E-04

發(fā)財?shù)腁PC基因

怎么選k=？是個學問

元月十號

- 【杜】O-MF2636/外公【崔】T-Y13290/外婆【張】O-F723

怎么選k=？是個學問

要回復問題請先登錄或注冊

每日與生物工程斗智斗勇到謝頂

3978 個討論

進入小組

<track id="ffr4e"></track>

<dfn id="ffr4e"></dfn>

主站蜘蛛池模板：双峰县| 罗源县| 肇州县| 楚雄市| 婺源县| 冕宁县| 蛟河市| 寻乌县| 铜梁县| 太谷县| 易门县| 高雄县| 麦盖提县| 衡阳市| 潮安县| 吴旗县| 资溪县| 安陆市| 会理县| 东城区| 娱乐| 南木林县| 会东县| 宣城市| 黄骅市| 博客| 新邵县| 秦皇岛市| 新巴尔虎右旗| 海盐县| 奇台县| 松江区| 称多县| 友谊县| 罗定市| 永平县| 富顺县| 曲周县| 乌拉特前旗| 巩义市| 抚远县|

<center id="k9rve"></center>