亚洲精品午夜精品,日本二手网站,国产AⅤ爽AV久久久久成人社区,日本一二三区不收费av

使用 WeGene 需要啟用 Cookies, 請啟用后刷新頁面獲得更好的體驗
yhlhhhhh yhlhhhhh - 每日與生物工程斗智斗勇到謝頂 祖源分析

利用k均值聚類算法進行祖源分析

k均值聚類算法(kmeans)是機器學習中無監督學習的一種聚類算法。
原理:
先隨機選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。終止條件可以是以下任何一個:
1)沒有(或最小數目)對象被重新分配給不同的聚類。
2)沒有(或最小數目)聚類中心再發生變化。
3)誤差平方和局部最小。
------
我們以從某處(懂得都懂)獲取到的國內人群祖源PCA二維數據為例
首先目前k值我們是未知的,所以我們先以CH系數為衡量聚類效果的標準,CH系數越高聚類效果越好。所以我們先求從3到20的CH系數。
代碼:

截屏2022-03-25_上午10.58_.27_.png

?
CH系數可視化:

截屏2022-03-25_上午11.02_.38_.png

?
因為k值越小(也就是分的類別越少)我們分析起來就越方便,所以我們遵從的規則是在保證CH系數的前提下盡量選擇小k值。根據可視化結果可以觀察出,k=5或許是個較好的選擇。
?
接著上代碼:

截屏2022-03-25_上午11.11_.39_.png

?
可視化聚類結果(紅色五角星為每一簇的質心)

km5.jpg

?
與原來帶標簽的散點圖對比:

截屏2022-03-25_上午11.16_.22_.png

?
將兩圖對比我們可大概分析出
質心從左向右分別為:西北地區少數民族、西北地區漢族以及華北地區和少部分西南地區、華中東部、西南以及華東地區、華南地區。
2022-03-25 ? IP屬地北京
按熱門排序    按默認排序

3 個回復

元月十號 - 【杜】O-MF2636/外公【崔】T-Y13290/外婆【張】O-F723
怎么選k=?是個學問
怎么選k=?是個學問
yhlhhhhh - 每日與生物工程斗智斗勇到謝頂
順便補充一下5個質心的坐標:
-3.04E-03,3.42E-04
-1.61E-02,-5.71E-02
1.10E-02,-4.41E-03
-6.22E-03,-6.66E-03
3.39E-03,-9.45E-04

要回復問題請先登錄注冊

  • <track id="ffr4e"></track>

      <dfn id="ffr4e"></dfn>

      主站蜘蛛池模板: 拉孜县| 葫芦岛市| 和平区| 灌云县| 溆浦县| 西昌市| 腾冲县| 醴陵市| 河津市| 阿拉善盟| 西宁市| 钦州市| 河东区| 长汀县| 江永县| 美姑县| 新昌县| 弋阳县| 商城县| 贵溪市| 无棣县| 盐津县| 黄梅县| 武邑县| 乌什县| 雅江县| 舞钢市| 涡阳县| 和田市| 甘南县| 嵩明县| 永清县| 江孜县| 五家渠市| 庆云县| 鄂州市| 新河县| 大荔县| 吴忠市| 南安市| 寿光市|