
【研發日記】基于wegene原始數據的后代數據模擬、親子鑒定和親緣關系(日常更新)
編寫了以下兩個基于多人wegene原始數據的程序:
程序1:兩人數據(情侶、夫妻等)模擬后代基因數據;
程序2:三人數據(一家三口)判定親子鑒定;
程序3:兩人數據比對-親緣關系;(2016.7.6新增)
程序4:父親或母親+兒子或女兒,推測母親或父親的基因型數據。(2016.7.7新增)
用時:1工作日;
費用:免費,僅用于學習、交流和探討;
安全性:原始數據和結果將在出具結果后2日內刪除;
免責聲明:注釋結果不具有任何醫學或法律效力,只是基因的客觀統計計算結果;
聲明:本活動與wegene公司無關,僅為個人行為;本活動僅為學術交流,非商業活動;
聯系方式:發送原始數據到[email protected]并注明想進行的項目(可以同時參與http://sofreetech.com/question/493的人類疾病數據庫注釋);
算法原理:統計學定量。
數據說明:因為涉及個人數據隱私(使用前必須征得個人同意,使用后及時刪除數據),所以能拿到的數據量相比于wegene公司自己做一次統計可以從數據庫中隨機抽取幾千份樣本甚至使用全部數據那樣,我能用到的數據很少,不過從第一批這54次計算中發現,相互之間無血緣關系的三份樣本的錯配率穩定在18%左右。現在要等真正的一家三口原始數據跑完本流程,本實驗即可完成,程序便可使用。
注1:目前支持wegene數據、23andme數據、rs位點數據,暫不接受fastq/fasta數據;
注2:本實驗和wegene公司無關;
?
注3:結果僅供參考,不承擔法律責任。
?
?
【記錄】
2016.6.7 ? ? ?程序1V1.0,基于本人做的疾病數據注釋流程(http://sofreetech.com/question/493),想到把兩個人的數據模擬出一份“孩子”的“模擬原始數據”,再做疾病數據注釋。
2016.6.13 ? ?基于上述這個“兩個數據模擬一個‘后代’數據”的程序,開始著手編寫處理三份數據(一家三口)的程序,初衷是判斷wegene錯誤率或基因突變率,后來想到這個算法可以用作親子鑒定(程序2V1.0)。
2016.6.14 ? ?優化了程序2的算法,處理掉一些干擾因素,生成文件為匹配、錯配、child數據中未檢出的模擬(V2.0)。
2016.6.20 ? ?修正了程序2算法中的兩處bug(V3.0)。
2016.6.21 ? ?優化了程序2,增加了幾個參數,減少了一點兒計算時間(V3.2)。
2016.6.22 ? ?關于程序2的試驗。用自己的原始數據和5份朋友的(已經對方同意)共6份數據(3男3女)進行試驗,按性別分開并抹去姓名后隨機分配為“爸爸”、“媽媽”和“孩子”,共有3x3x6=54種排列組合,編寫了自動批量計算程序和計算后結果的統計程序,結果如下:
1)三個無血緣關系的人數據計算得出的錯配率穩定發生在17.4%-18.4%;
2)如果“爸爸”or“媽媽”和“孩子”是同一人(即假設孩子和父母一方的基因型完全相同,而和父母另一方無血緣關系)(夸張的假設),錯配率穩定在6.17%-6.59%。
?
2016.6.27 ? ?程序1,原有兩份原始數據模擬一份新“子代”原始數據,已修改格式從RS位點列表變為wegene原始數據格式。
?
2016.6.28 ? ?兩人數據模擬后代程序(V2.0),添加了參數可以選擇模擬后代的性別。
?
2016.6.29 ? ?兩人數據模擬后代程序(V3.0),支持23andme數據,且可以是兩份23andme也可以是一份23andme一份wegene數據。
?
2016.6.30 ? ?兩人數據模擬后代程序(V4.0),優化了算法流程,修正了性染色體和線粒體DNA的bug。
?
2016.7.1 ? ? ?三人數據親子鑒定程序(V4.0),進行了數據試驗,7月4日得到結果:閾值控制在16.8-17.9%。
?
2016.7.6 ? ? ?兩人數據模擬后代程序(V5.0),解決了模擬數據做疾病注釋的bug。
?
2016.7.7 ? ? ?程序3(V1.0)誕生:兩人數據的比對測定親緣關系;程序3(V2.0),修改為僅比對常染色體。當日得到試驗結果:有無親緣關系的過度值范圍在60-70%。
?
2016.7.7 ? ? ?程序4(V1.1)誕生:父親或母親+兒子或女兒兩份數據,可推測母親或父親的基因型數據。
程序1:兩人數據(情侶、夫妻等)模擬后代基因數據;
程序2:三人數據(一家三口)判定親子鑒定;
程序3:兩人數據比對-親緣關系;(2016.7.6新增)
程序4:父親或母親+兒子或女兒,推測母親或父親的基因型數據。(2016.7.7新增)
用時:1工作日;
費用:免費,僅用于學習、交流和探討;
安全性:原始數據和結果將在出具結果后2日內刪除;
免責聲明:注釋結果不具有任何醫學或法律效力,只是基因的客觀統計計算結果;
聲明:本活動與wegene公司無關,僅為個人行為;本活動僅為學術交流,非商業活動;
聯系方式:發送原始數據到[email protected]并注明想進行的項目(可以同時參與http://sofreetech.com/question/493的人類疾病數據庫注釋);
算法原理:統計學定量。
數據說明:因為涉及個人數據隱私(使用前必須征得個人同意,使用后及時刪除數據),所以能拿到的數據量相比于wegene公司自己做一次統計可以從數據庫中隨機抽取幾千份樣本甚至使用全部數據那樣,我能用到的數據很少,不過從第一批這54次計算中發現,相互之間無血緣關系的三份樣本的錯配率穩定在18%左右。現在要等真正的一家三口原始數據跑完本流程,本實驗即可完成,程序便可使用。
注1:目前支持wegene數據、23andme數據、rs位點數據,暫不接受fastq/fasta數據;
注2:本實驗和wegene公司無關;
?
注3:結果僅供參考,不承擔法律責任。
?
?
【記錄】
2016.6.7 ? ? ?程序1V1.0,基于本人做的疾病數據注釋流程(http://sofreetech.com/question/493),想到把兩個人的數據模擬出一份“孩子”的“模擬原始數據”,再做疾病數據注釋。
2016.6.13 ? ?基于上述這個“兩個數據模擬一個‘后代’數據”的程序,開始著手編寫處理三份數據(一家三口)的程序,初衷是判斷wegene錯誤率或基因突變率,后來想到這個算法可以用作親子鑒定(程序2V1.0)。
2016.6.14 ? ?優化了程序2的算法,處理掉一些干擾因素,生成文件為匹配、錯配、child數據中未檢出的模擬(V2.0)。
2016.6.20 ? ?修正了程序2算法中的兩處bug(V3.0)。
2016.6.21 ? ?優化了程序2,增加了幾個參數,減少了一點兒計算時間(V3.2)。
2016.6.22 ? ?關于程序2的試驗。用自己的原始數據和5份朋友的(已經對方同意)共6份數據(3男3女)進行試驗,按性別分開并抹去姓名后隨機分配為“爸爸”、“媽媽”和“孩子”,共有3x3x6=54種排列組合,編寫了自動批量計算程序和計算后結果的統計程序,結果如下:
1)三個無血緣關系的人數據計算得出的錯配率穩定發生在17.4%-18.4%;
2)如果“爸爸”or“媽媽”和“孩子”是同一人(即假設孩子和父母一方的基因型完全相同,而和父母另一方無血緣關系)(夸張的假設),錯配率穩定在6.17%-6.59%。
?
2016.6.27 ? ?程序1,原有兩份原始數據模擬一份新“子代”原始數據,已修改格式從RS位點列表變為wegene原始數據格式。
?
2016.6.28 ? ?兩人數據模擬后代程序(V2.0),添加了參數可以選擇模擬后代的性別。
?
2016.6.29 ? ?兩人數據模擬后代程序(V3.0),支持23andme數據,且可以是兩份23andme也可以是一份23andme一份wegene數據。
?
2016.6.30 ? ?兩人數據模擬后代程序(V4.0),優化了算法流程,修正了性染色體和線粒體DNA的bug。
?
2016.7.1 ? ? ?三人數據親子鑒定程序(V4.0),進行了數據試驗,7月4日得到結果:閾值控制在16.8-17.9%。
?
2016.7.6 ? ? ?兩人數據模擬后代程序(V5.0),解決了模擬數據做疾病注釋的bug。
?
2016.7.7 ? ? ?程序3(V1.0)誕生:兩人數據的比對測定親緣關系;程序3(V2.0),修改為僅比對常染色體。當日得到試驗結果:有無親緣關系的過度值范圍在60-70%。
?
2016.7.7 ? ? ?程序4(V1.1)誕生:父親或母親+兒子或女兒兩份數據,可推測母親或父親的基因型數據。
17 個回復
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自: 費力科思
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自:
贊同來自: kk
要回復問題請先登錄或注冊