亚洲精品午夜精品,日本二手网站,国产AⅤ爽AV久久久久成人社区,日本一二三区不收费av

使用 WeGene 需要啟用 Cookies, 請啟用后刷新頁面獲得更好的體驗
yhlhhhhh yhlhhhhh - 每日與生物工程斗智斗勇到謝頂 全基因組測序

利用WeGene WGS給出的VCF文件輸出類似WeGene芯片數據txt

概述:
編程語言:Python3.8
模塊:pyvcf csv
可選:jupyter
整體思路:識別WeGene芯片數據txt的文件特征,讀取vcf文件并根據其中內容獲取所需數據并寫入到txt中
前排提示:強烈建議買一個讀寫速度快一點而且至少是128GB或以上的U盤,當然我是直接買了個1T的移動硬盤

WechatIMG24.jpeg

?
步驟:

1. 通過觀察微基因芯片測試txt結果,我們可以得知重要信息分別為:RSID chromosome position genotype,并且我們可以發現每列之間的分隔符是一個tab縮進,所以接下來的問題就轉化成如何獲取這四種信息并且以分隔符為tab縮進形式輸出
2. 眾所周知vcf文件里的數據包括ID CHROM POS 參考序列和突變方向,而vcf中又有GT標簽來表示是雜合還是純合,是突變還是未突變。所以得出結論:我們可以直接調用pyvcf模塊,并讀取vcf,遍歷每行的內容,同時直接用ID POS CHROM標簽來獲取所需的RSID chromosome position三種數據,再通過讀取GT標簽,原始型REF和突變型ALT來確定這個位點的genotype。注意:這幾種標簽的數據類型如下表
標簽 |?類型
ID |?str
CHROM | int
POS | int
ID | str
GT | str
REF | str
ALT | list
GT標簽說明:示例結構'0/1',其中0表示原始型,1表示突變
代碼:

截屏2021-07-21_下午9.30_.34_.png

?
結果展示:

截屏2021-07-19_上午9.41_.37_.png


3. 從我們輸出的結果可以看出還有些問題,由于ALT標簽輸出的是list所以文件中會存在[]字樣,并且由于讀取的位點中并不是所有位點的genotype長度都是2,而微基因的數據中的genotype長度都是2,所以去除[]的同時還要去除那些genotype長度非2的位點
代碼:

截屏2021-07-21_下午9.32_.59_.png

?

截屏2021-07-21_下午9.33_.10_.png

?
2021-07-21 ? IP屬地北京
按熱門排序    按默認排序

4 個回復

大灰狼 - Don't worry, Be happy~
用plink --vcf in.vcf --recode 23 就行了
啊,我想搞魔方的
我有自己wgs的vcf。通過這個轉換,能不能上傳到wegene分析?
對于不含插入缺失(indel)位點,且僅有Primary Assembly和線粒體的數據,用bcftools+sed+sort就可以:
bcftools query -f '%ID\t%CHROM\t%POS[\t%TGT]\n' xxxxx.vcf.gz -o xxxxx_unsorted.tab
sed 's/chr//; s/\tM\t/\tMT\t/g; s/\///; s/\.\.$/--/; s/TA$/AT/; s/TC$/CT/; s/TG$/GT/; s/GA$/AG/; s/GC$/CG/; s/CA$/AC/' xxxxx_unsorted.tab |\
sort -k2,3 -V - > xxxxx.txt
然后再用空模板轉化此數據。(上面的加粗斜體字部分可以部分替換為自己的文件名)
如果存在插入缺失位點,那么需要在sed+sort之前用其他方法將其轉化為“I”或“D”。

要回復問題請先登錄注冊

  • <track id="ffr4e"></track>

      <dfn id="ffr4e"></dfn>

      主站蜘蛛池模板: 东兴市| 深水埗区| 呼图壁县| 瓮安县| 上杭县| 鄢陵县| 丘北县| 台湾省| 扎囊县| 南康市| 湄潭县| 惠水县| 兰考县| 双柏县| 措勤县| 富源县| 天等县| 双桥区| 集安市| 鄂托克前旗| 阿瓦提县| 天柱县| 周口市| 阜城县| 芜湖县| 静安区| 曲麻莱县| 新余市| 青神县| 德安县| 津南区| 凌海市| 古丈县| 溧水县| 乐昌市| 新郑市| 呼和浩特市| 乌拉特前旗| 乐山市| 宁化县| 化隆|