高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种构造GC常重量DNA码的方法

梁静 李红菊 赵凤 丁健

梁静, 李红菊, 赵凤, 丁健. 一种构造GC常重量DNA码的方法[J]. 电子与信息学报, 2019, 41(10): 2423-2427. doi: 10.11999/JEIT190070
引用本文: 梁静, 李红菊, 赵凤, 丁健. 一种构造GC常重量DNA码的方法[J]. 电子与信息学报, 2019, 41(10): 2423-2427. doi: 10.11999/JEIT190070
Jing LIANG, Hongju LI, Feng ZHAO, Jian DING. A Method for Constructing GC Constant Weight DNA Codes[J]. Journal of Electronics & Information Technology, 2019, 41(10): 2423-2427. doi: 10.11999/JEIT190070
Citation: Jing LIANG, Hongju LI, Feng ZHAO, Jian DING. A Method for Constructing GC Constant Weight DNA Codes[J]. Journal of Electronics & Information Technology, 2019, 41(10): 2423-2427. doi: 10.11999/JEIT190070

一种构造GC常重量DNA码的方法

doi: 10.11999/JEIT190070
基金项目: 安徽省高校自然科学研究项目(KJ2017A623,KJ2018A0584),安徽新华学院自然科学重点项目(2018zr001)
详细信息
    作者简介:

    梁静:女,1986年生,讲师,硕士,研究方向为代数编码与密码

    李红菊:女,1982年生,副教授,硕士,研究方向为统计学

    赵凤:女,1985年生,讲师,硕士,研究方向密码学

    丁健:男,1982年生,副教授,硕士,研究方向为代数编码与密码

    通讯作者:

    梁静 beaulj8607@163.com

  • 中图分类号: O157.4

A Method for Constructing GC Constant Weight DNA Codes

Funds: Anhui University Natural Science Research Project (KJ2017A623, KJ2018A0584), Anhui Xinhua University Natural Science Key Project (2018zr001)
  • 摘要: GC重量是DNA码的一个重要参数,如何构造满足GC常重量约束的DNA码是一个有趣的问题。该文通过在DNA码与四元码之间建立一个双射,将构造满足GC常重量约束的DNA码转化为构造GC常重量四元码。通过代数的方法,构造了3类满足GC常重量约束的DNA码。
  • 脱氧核糖核酸(DNA)是一种长链聚合物。通常DNA是由两条DNA链反向平行盘绕构成,具有双螺旋结构。每条DNA链的组成单元为4种脱氧核苷酸,即腺嘌呤脱氧核苷酸A,胸腺嘧啶脱氧核苷酸T,胞嘧啶脱氧核苷酸G,鸟嘧啶脱氧核苷酸C。两条DNA链按照Watson-Crick模型链接:AT相连,CG相连,这种配对是反向平行的。设Ξ={A,G,T,C},定义Ξn={(c0,c1,···,cn1):c0,c1,···,cn1Ξ},其中n是一个正整数。设aΞ,与a配对的元素称为a的补,记作ˉa,即¯A=T, ¯C=G, ¯T=A, ¯G=C

    对于Ξn中的每个n元组x=(x0,x1,···,xn1),定义x的补、倒换和倒换补分别为ˉx=(ˉx0,ˉx1,···,ˉxn1), xr=(xn1,xn2,···,x0)ˉxr=(ˉxn1,ˉxn2,···,ˉx0)。因此,对于一个长度为n的DNA单链x,与之配对的另一条DNA单链为ˉxr。例如,设AGTTC是一条DNA链,则它的补为TCAAG,而与这条链配对的另外一条DNA链为GAACT

    基于DNA分子的特殊结构,Adleman[1]通过生化方法求解了7个顶点的哈密顿回路问题,显示了DNA计算的可行性和高效性。Ξn的每个非空子集C都叫做一个码长n的DNA码。在DNA计算中,关键在于设计满足特定约束的DNA码。设d是一个固定的整数,针对特定的目的,通常考虑如下约束:

    (1) 汉明距离约束:对任意x=(x0,x1,···,xn1),y=(y0,y1,···,yn1)Cxy, |{i:xiyi,0in1}|=:d(x,y)d

    (2) 倒换约束:对任意x,yC, d(xr,y)d

    (3) 倒换补约束:对任意x,yC, d(ˉxr,y)d

    (4) GC常重量约束:码C中的每个码字含有GC的总位数是一个常值。

    3个约束的目的是为了减少非特定配对的概率,GC常重量约束用于获得相似的熔化温度[2,3]

    基于各种经典的线性码,学者们构造了满足各种特定约束的DNA码。文献[4]利用域F4上的循环码构造了满足倒换约束的DNA码。随后,通过加性和线性的四元码,构造了满足各种约束的DNA码[5],特别地,以四元汉明码和Z4Kerdock码为工具构造了两类满足GC常重量约束的DNA码。文献[6]用域F4上的循环码构造了满足倒换补约束的DNA码,并获得了一些参数好的DNA码,自此,循环DNA码受到学者们的关注。学者们进一步研究了环F2[u]/(u21)上的循环码并构造了满足倒换补约束的DNA码[7],同时,基于擦除距离,研究了满足GC常重量约束的循环DNA码。文献[8]基于环F2[u]/(u2)研究了长度为奇数的循环码,构造了满足各种约束的DNA码。文献[9]将文献[8]的结果推广到一般情形,构造了任意长度的满足各种约束的DNA码。对于满足倒换约束和倒换补约束的任意长度的循环DNA码的结构,文献[10]利用Gray映射进行了研究。Dinh等人[11]建立了多项式环F2[u,v]/(u2,v3=v)中元素与64密码子之间的联系,从而构造了满足倒换约束和倒换补约束的DNA码。接着Shi等人[12]研究了环F2[u,v]/(u3,v2=v,uvvu)上循环DNA码的结构,Singh等人[13]研究了一类64元环上的循环码的对偶码,并由此构造了DNA码。目前,满足GC常重量约束的DNA码的研究相对较少。2017年Oztas等人[14]基于不可约循环码构造了一类满足GC常重量约束的DNA码,受此启发,本文通过可约循环码构造满足GC常重量约束的DNA码。

    F4={0,1,ω,ˉω}4元有限域,其中ˉω=ω2=ω+1。设Fn4F4上的n维行向量空间,其中,n是一个正奇数。向量空间Fn4的每个非空子集C都称为一个码长n的四元码。对于任意的aF4和向量x=(x0,x1,···,xn1)Fn4,定义

    Na(x):=|{i:xi=a,0in1}|
    (1)

    C的最小汉明距离定义为

    d(C)=nmax{N0(xy):x,yC,xy}
    (2)

    向量x的GC重量定义为

    NGC(x)=Nω(x)+Nˉω(x)
    (3)

    C的GC重量分布定义为N(C)={NGC(x):xC}。如果N(C)只有一个值,则称C为GC常重量码。用(n,M,d1,d2)表示一个码长为n码字个数为M最小汉明距离为d1GC重量为d2的GC常重量码。定义映射φ:F4Ξ, 0A, ωC, ˉωG1T。将映射 φ延拓可得

    Φ:Fn4Ξn,(c0,c1,···,cn1)(φ(c0),φ(c1),···,φ(cn1))
    (4)

    显然,映射Φ是一个双射。设C是一个码长为n的四元码,定义Φ(C)={Φ(c):cC},则Φ(C)是一个码长为n的DNA码。如果码C是一个码长为n的GC常重量码,由Φ的定义,Φ(C)是一个满足GC常重量约束的DNA码。于是构造满足GC常重量约束的DNA码等价于构造一个GC常重量码。

    C是一个码长n的四元码,如果CFn4的线性子空间,则称C是一个码长n的四元线性码。四元线性码C中,对任意(c0,c1,···,cn1)C,有(cn1,c0,c1,···,cn2)C,称四元线性码C为循环码。设R=F4[x]/(xn1)表示多项式环F4[x]关于理想(xn1)的商环,则环R是一个主理想环。定义映射ϕ:Fn4R, (c0,c1,···,cn1)c0+c1x+···+cn1xn1,则码C是一个码长n的四元循环码当且仅当ϕ(C)是环R的理想,其中ϕ(C)表示码C在映射ϕ下的像。在不引起混淆的情况下,本文不区分Cϕ(C)。由于R是主理想环,所以存在g(x)F4[x]使得C=(g(x))g(x)|(xn1)。通常,g(x)称为C的生成多项式,h(x)=(xn1)/g(x)称为C的校验多项式。如果h(x)是不可约的,则称C为不可约循环码,如果h(x)是可约的,则称C为可约循环码。

    m是一个正整数,用F4m表示域F4m次扩域。域F4m到域F4的迹函数定义为Trm2(x)=x+x4+···+x4m1,对任意的xF4m。可以验证,Trm2是一个F4m线性映射。类似地,域F4m到域F2的绝对迹定义为Trm1(x)=x+x2+···+x2m1。关于迹函数的更多性质可参阅文献[15]。设g是域F4m的一个本原元,t是一个正整数,s是使得

    t4st(od4m1)
    (5)

    成立的最小正整数,显然,s整除m

    定义码C={c(a,b)=(c0(a,b),c1(a,b),···,c4m2(a,b)):aF4s,bF4m},其中cl(a,b)=Trs2(aglt)+Trm2(bgl), 0l4m2,则C是一个码长为4m1维数为m+s的四元可约循环码。下文通过码C构造3类码长为n的GC常重量码,并由此构造3类满足GC常重量约束的DNA码。

    情形1  t=0,即s=1,定义˜C={c(a,b)=(c0(a,b),c1(a,b),···,c4m2(a,b)):a{0,1}, bF4m}则码˜C的参数如下。

    定理1 码˜C是一个参数为(4m1,2(4m1),3×4m11,22m1)的GC常重量码。

    证明 码长和码字的个数是显然的。下面讨论码˜C的最小汉明距离和GC重量。由定义,码˜C的最小汉明距离为

    4m1max{N0(c(a,b)c(a,b)):(a,b)(a,b)}
    (6)

    其中a,a{0,1},b,bF4m。对任意的a{0,1}bF4mβF4,定义

    Ta,b(β)=|{l:a+Trm2(bgl)=β,0l4m2}|=|{xF4m:Trm2(bx)=βa}|
    (7)

    因为c(a,b)c(a,b)=c(aa,bb),所以N0(c(a,b)c(a,b))=Taa,bb(0)

    b0时,Ta,b(β)=|{xF4m:Trm2(x)=βa}|。由于Trm2F4mF44m1对1的满映射,故当βa时,Ta,b(β)=4m1;当β=a时,Ta,b(β)=4m11。由此推出,

    max{N0(c(a,b)c(a,b)):(a,b)(a,b)}=4m1
    (8)

    即码˜C的最小汉明距离为3×4m11

    接下来,证明码˜C的GC重量为22m1。对任意bF4m,由GC重量的定义,

    NGC(c(a,b))=Nω(c(a,b))+Nˉω(c(a,b))=Ta,b(ω)+Ta,b(ˉω)=4m1+4m1
    (9)

    综上所述,结论成立。 证毕

    情形2 m4是一个偶数且t=2m+1。容易验证,s=m/2。对任意的αF4,设

    Lα={(a,b):aF2m,bF4m,Trm/22(a1b2m+1)=α}
    (10)

    显然{(a,b):aF2m,bF4m}=L0L1LωLˉω。定义

    C1={c(a,b):(a,b)L0L1}C2={c(a,b):(a,b)LωLˉω}
    (11)

    下面,证明码C1C2是GC常重量码。为此,首先给出两个必要的引理。

    引理1Lα定义如上,则

    |Lα|={(4m1)2m2,  αF4(4m2m+2+3)2m2, α=0
    (12)

    证明 对任意的βF4m/2,令Mα={xF4m:x2m+1=β}。显然|M0|=1。当β0时,容易验证,x2m+1F4mF4m/22m+11满映射,故|Mβ|=2m+1。又因为Trm/22F4m/2F42m2对1满映射,于是当α0时,

    |Lα|=|{(a,b)F2m×F4m:Trm/22(β)=α,a1b2m+1=β}|=(2m1)(2m+1)2m2
    (13)

    α=0时,

    |Lα|=|{(a,b)F2m×F4m:Trm/22(β)=0,a1b2m+1=β0}|+|{(a,b)F2m×F4m:a1b2m+1=0}|=(2m1)(2m+1)(2m21)+(2m1)=(22m2m+2+3)2m2
    (14)

    综上所述,结论成立。 证毕

    引理2 设aF2mbF4m,则

    S(a,b)=xF4m(1)Trm/21(ax2m+1)+Trm1(bx)=2m(1)Trm/21(a1b2m+1)
    (15)

    证明 首先,x2m+1F4mF2m2m+1对1满映射,所以,

    S(a,0)=xF4m(1)Trm/21(ax2m+1)=1+xF4m(1)Trm/21(ax2m+1)=1+(2m+1)xF2m(1)Trm/21(ax)=1+(2m+1)(1)=2m
    (16)

    接下来,计算

    S(a,b)S(a,0)=zF4m(1)Trm/21(az2m+1)+Trm1(bz)yF4m(1)Trm/21(ay2m+1)=x,yF4m(1)Trm/21(a[(x+y)2m+1+y2m+1])+Trm1(b(x+y))=xF4m(1)Trm/21(ax2m+1)+Trm1(bx)yF4m(1)Trm1((ax2m+b)y)=4mxF4m,x2m=a1b(1)Trm/21(ax2m+1)+Trm1(bx)=4m(1)Trm/21(a1b2m+1)
    (17)

    因此,S(a,b)=2m(1)Trm/21(a1b2m+1)。 证毕

    定理2  (1) 码C1是一个参数为(4m1,(4m2m+1+1)2m1,3×4m12m2,2(4m1+2m2))的GC常重量码。

    (2) 码C2是一个参数为(4m1,(4m1)2m1,3×4m12m2,2(4m12m2))的GC常重量码。

    证明 下面证明定理2(1)成立。定理2(2)的证明是类似的,略去。

    由引理1和C1的定义知,|C1|=|L0|+|L1|=(4m2m+1+1)2m1。下面讨论码C1的最小汉明距离和GC重量。由定义,码C1的最小汉明距离为

    4m1max{N0(c(a,b)c(a,b)):(a,b)(a,b)L0L1}
    (18)

    因为,c(a,b)c(a,b)=c(aa,bb),所以

    N0(c(a,b)c(a,b))=N0(c(aa,bb))=|{xF4m:Trm/22((aa)x2m+1)+Trm2((bb)x)=0}|
    (19)

    由特征的正交关系[15]

    N0(c(a,b)c(a,b))=xF4m14yF4(1)Tr(yTrm/22((aa)x2m+1)+yTrm2((bb)x))=1+xF4m14yF4(1)Trm/21((aa)yx2m+1)+Trm1((bb)yx)=4m11+14yF4xF4m(1)Trm/21((aa)yx2m+1)+Trm2((bb)yx)
    (20)

    其中Tr表示F4F2的迹映射。

    aa=0, bb0, N0(c(a,b)c(a,b))=4m11

    aa0,由引理2,

    N0(c(a,b)c(a,b))=4m112m2yF4(1)Trm/21((aa)1(bb)2m+1y2m)=4m112m2yF4(1)Tr(y(Trm/22(aa)1(bb)2m+1)))
    (21)

    所以,

    N0(c(a,b)c(a,b))={4m11+2m2,Trm/22((aa)1(bb)2m+1)04m113×2m1,Trm/22((aa)1(bb)2m+1)=0
    (22)

    注意当(a,b)(a,b)Lα时,(a,b)(a,b)取遍F2m×F4m中非零元,故码C1的最小汉明距离为3×4m12m2

    由GC重量的定义得

    NGC(c(a,b))=Nω(c(a,b))+Nˉω(c(a,b))
    (23)

    对任意的βF4, Nβ(c(a,b))=|{xF4m:Trm/22(ax2m+1)+Trm2(bx)=β}|。由于aF2mbF4m,则

    4Nβ(c(a,b))=xF4myF4(1)Tr(y[Trm/22(ax2m+1)+Trm2(bx)β])=xF4myF4(1)Tr(y[Trm/22(ax2m+1)+Trm2(bx)β])=4m+xF4myF4(1)Tr(y[Trm/22(ax2m+1)+Trm2(bx)β])=4m+yF4(1)Tr(βy)xF4m(1)Tr1m/2(ayx2m+1)+Tr1m(byx)
    (24)

    由引理1

    4Nβ(c(a,b))=4m2myF4(1)Tr(βy)(1)Trm2(a1b2m+1y)=4m2myF4(1)Tr(βy)(1)Tr(yTrm2(a1b2m+1))
    (25)

    由于(a,b)Lα,所以

    4Nβ(c(a,b))=4m2myF4(1)Tr((αβ)y)
    (26)

    Nβ(c(a,b))={4m13×2m2, β=α4m1+2m2,  βα
    (27)

    由此推出,当(a,b)L0L1时,

    NGC(c(a,b))=Nω(c(a,b))+Nˉω(c(a,b))=2(4m1+2m2)
    (28)

    综上所述,结论成立。 证毕

    由定理1和定理2,得出如下推论。

    推论 (1) 设m是一个正整数,则存在参数为(4m1,2(4m1),3×4m11,22m1)且满足GC常重量约束的DNA码。

    (2) 设m为偶数,且m4,则存在参数为(4m1,(4m2m+1+1)2m1,3×4m12m2, 2(4m1+2m2))的满足GC常重量约束的DNA码。

    (3)设m4是偶数,则存在参数为(4m1,(4m1)2m1,3×4m12m2, 2(4m12m2))的满足GC常重量约束的DNA码。

    本文基于四元可约的循环码构造了3类满足GC常重量的DNA码。通过建立四元码和DNA码的一个对应关系,将构造满足GC常重量约束的DNA码转化为构造四元GC常重量码。利用循环码的迹表示,选取循环码的特定子码,构造了3类四元GC常重量码,由此获得3类满足GC常重量约束的DNA码。

  • ADLEMAN L M. Molecular computation of solutions to combinatorial problems[J]. Science, 1994, 266(5187): 1021–1024. doi: 10.1126/science.7973651
    FRUTOS A G, LIU Qinghua, THIEL A J, et al. Demonstration of a word design strategy for DNA computing on surfaces[J]. Nucleic Acids Research, 1997, 25(23): 4748–4757. doi: 10.1093/nar/25.23.4748
    MARATHE A, CONDON A E, and CORN R M. On combinatorial DNA word design[J]. Journal of Computational Biology, 2001, 8(3): 201–220. doi: 10.1089/10665270152530818
    RYKO V V, MACULA A J, TORNEY D C, et al. DNA sequences and quaternary cyclic codes[C]. 2001 IEEE International Symposium on Information. Washington, USA, 2001: 248–248.
    GABORIT P and KING O D. Linear constructions for DNA codes[J]. Theoretical Computer Science, 2005, 334(1/3): 99–113. doi: 10.1016/j.tcs.2004.11.004
    ABUALRUB T, GHRAYEB A, and ZENG Xiangnian. Construction of cyclic codes over GF(4) for DNA computing[J]. Journal of the Franklin Institute, 2006, 343(4/5): 448–457. doi: 10.1016/j.jfranklin.2006.02.009
    SIAP I, ABUALRUB T, and GHRAYEB A. Cyclic DNA codes over the ring F2[u]/(u21) based on the deletion distance[J]. Journal of the Franklin Institute, 2009, 346(8): 731–740. doi: 10.1016/j.jfranklin.2009.07.002
    GUENDA K and GULLIVER T A. Construction of cyclic codes over F2+uF2 for DNA computing[J]. Applicable Algebra in Engineering, Communication and Computing, 2013, 24(6): 445–459. doi: 10.1007/s00200-013-0188-x
    LIANG Jing and WANG Liqi. On cyclic DNA codes over F2+uF2 [J]. Journal of Applied Mathematics and Computing, 2016, 51(1/2): 81–91. doi: 10.1007/s12190-015-0892-8
    ZHU Shixin and CHEN Xiaojing. Cyclic DNA codes over F2+uF2+vF2+uvF2 and their applications[J]. Journal of Applied Mathematics and Computing, 2017, 55(1/2): 479–493. doi: 10.1007/s12190-016-1046-3
    DINH H Q, SINGH A K, PATTANAYAK S, et al. Cyclic DNA codes over the ring F2+uF2+vF2+uvF2+ v2F2+uv2F2 [J]. Designs, Codes and Cryptography, 2018, 86(7): 1451–1467. doi: 10.1007/s10623-017-0405-x
    SHI Minjia and LU Yaqi. Cyclic DNA codes over F2[u,v]/<u3,v2v,vuuv> [J]. Advances in Mathematics of Communications, 2019, 13(1): 157–164. doi: 10.3934/amc.2019009
    SINGH A K, KUMAR N, MISHRA P, et al. Construction of dual cyclic codes over F2[u,v]/u2,v2v,uvvu for DNA Computation[J]. Defence Science Journal, 2018, 68(5): 467–472. doi: 10.14429/dsj.68.12344
    OZTAS E S, YILDIZ B, and SIAP I. A novel approach for constructing reversible codes and applications to DNA codes over the ring F2[u]/<u2k1> [J]. Finite Fields and Their Applications, 2017, 46: 217–234. doi: 10.1016/j.ffa.2017.04.001
    LIDL R and NIEDERREITE H. Finite Fields[M]. New York: Addison-Wesley Publishing Company, 1983.
  • 期刊类型引用(4)

    1. 杨小平,倪萍,诸葛天秋,罗跃新,郭春雨,庞月兰,吴雨婷. 基于机器学习的茶树DNA聚类算法. 广西大学学报(自然科学版). 2024(02): 386-399 . 百度学术
    2. 柳娟,谢文彬,汪改英,汤敏丽. 基于DNA和限制性核酸内切酶的基本逻辑门设计. 电子与信息学报. 2020(06): 1332-1339 . 本站查看
    3. 牛莹,张勋才. 基于变步长约瑟夫遍历和DNA动态编码的图像加密算法. 电子与信息学报. 2020(06): 1383-1391 . 本站查看
    4. 孙军伟,李智,王延峰. 基于DNA链置换的三级联组合分子逻辑电路设计. 电子与信息学报. 2020(06): 1401-1409 . 本站查看

    其他类型引用(0)

  • 加载中
计量
  • 文章访问数:  2148
  • HTML全文浏览量:  868
  • PDF下载量:  56
  • 被引次数: 4
出版历程
  • 收稿日期:  2019-01-24
  • 修回日期:  2019-08-15
  • 网络出版日期:  2019-08-29
  • 刊出日期:  2019-10-01

目录

/

返回文章
返回