
【已完結】原始數據的“綻放”——人類疾病各大數據庫比對結果
一、概述
? ? 拿到wegene原始數據,和人類疾病突變數據庫比對,再根進行過濾,最終得到和疾病相關的突變。
二、原料
1、wegene.txt;2、軟件、腳本;3、數據庫;4、Linux計算機、windows計算機、excel&VBA宏編程等;5、自編寫的“基因信息查詢系統”(Windows環境下的面向對象可視化);6、手機、耳機和HiFi無損音樂。
三、過程
? ? 我的wegene原始數據共有位點596744個,其中有rs號578153個,占約97%,因為絕大部分有rs號,所以按照rs號注釋而不按位置,更為方便和不易出錯。
?
第一次過濾(腳本過濾(VBA、perl、awk、grep等))過程:提取rs號進行數據庫注釋,605096行→刪除內含子等、刪除同義突變(synonymous?SNV),剩下37055行→刪掉非突變的位點(野生型純合),剩下5918行→刪掉E東亞人高頻率(視為多態)的行,剩下342個位點,對應250個基因。
?
第二次過濾(手動過濾)過程:將基因名(簡稱)輸入自編寫的查詢系統軟件中,可查到數據庫注釋信息,結合查詢信息手動篩出重要的位點。1、刪掉未檢出位點(--),僅保留外顯子、錯義突變、stopgain等,余下130個;2、刪掉clinvar4個良性突變,余下126個位點,其中雜合子55個,隱性純合71個;3、僅保留有clinvar信息的行,余下59個位點,其中雜合子24個,對應22個基因,找到2個位點是Rh血型基因(RHD),找到兩個OMIM數據庫的常染色體隱性遺傳但我是雜合子,但是OMIM按基因不按位點,不能確定;4、按clinvar注釋的僅保留致病性(Pathogenic)相關位點,余下22行(見圖一),其中包括一個可能為攜帶者但不患病的ABCG5基因,包括幾個先天病、嬰兒病但我好好地沒有任何事兒,其余病均沒有臨床發現。
?
圖一:過濾結果
圖二:軟件示例截圖
? ? 拿到wegene原始數據,和人類疾病突變數據庫比對,再根進行過濾,最終得到和疾病相關的突變。
二、原料
1、wegene.txt;2、軟件、腳本;3、數據庫;4、Linux計算機、windows計算機、excel&VBA宏編程等;5、自編寫的“基因信息查詢系統”(Windows環境下的面向對象可視化);6、手機、耳機和HiFi無損音樂。
三、過程
? ? 我的wegene原始數據共有位點596744個,其中有rs號578153個,占約97%,因為絕大部分有rs號,所以按照rs號注釋而不按位置,更為方便和不易出錯。
?
第一次過濾(腳本過濾(VBA、perl、awk、grep等))過程:提取rs號進行數據庫注釋,605096行→刪除內含子等、刪除同義突變(synonymous?SNV),剩下37055行→刪掉非突變的位點(野生型純合),剩下5918行→刪掉E東亞人高頻率(視為多態)的行,剩下342個位點,對應250個基因。
?
第二次過濾(手動過濾)過程:將基因名(簡稱)輸入自編寫的查詢系統軟件中,可查到數據庫注釋信息,結合查詢信息手動篩出重要的位點。1、刪掉未檢出位點(--),僅保留外顯子、錯義突變、stopgain等,余下130個;2、刪掉clinvar4個良性突變,余下126個位點,其中雜合子55個,隱性純合71個;3、僅保留有clinvar信息的行,余下59個位點,其中雜合子24個,對應22個基因,找到2個位點是Rh血型基因(RHD),找到兩個OMIM數據庫的常染色體隱性遺傳但我是雜合子,但是OMIM按基因不按位點,不能確定;4、按clinvar注釋的僅保留致病性(Pathogenic)相關位點,余下22行(見圖一),其中包括一個可能為攜帶者但不患病的ABCG5基因,包括幾個先天病、嬰兒病但我好好地沒有任何事兒,其余病均沒有臨床發現。
?
圖一:過濾結果
圖二:軟件示例截圖
4 個回復
贊同來自:
贊同來自:
贊同來自:
贊同來自:
要回復問題請先登錄或注冊