陈丽 陈兴蜀 罗永刚 杨露 袁道华

陈丽, 陈兴蜀, 罗永刚, 杨露, 袁道华. 基于子图同构的Hive数据操作合规分析方法[J]. 电子与信息学报, 2022, 44(12): 4367-4375. doi: 10.11999/JEIT211081
CHEN Li, CHEN Xingshu, LUO Yonggang, YANG Lu, YUAN Daohua. Compliance Analysis Method of Hive Data Operation Based on Subgraph Isomorphism[J]. Journal of Electronics & Information Technology, 2022, 44(12): 4367-4375. doi: 10.11999/JEIT211081
doi: 10.11999/JEIT211081
基金项目: 国家自然科学基金(61802270)







    罗永刚 iamlyg98@scu.edu.cn

  • 中图分类号: TN915.08; TP311.13

Compliance Analysis Method of Hive Data Operation Based on Subgraph Isomorphism

Funds: The National Natural Science Foundation of China (61802270)
  • 摘要: Hive现有的审计功能不能对数据操作目的进行合规判断。针对以上问题,该文提出一种基于子图同构的Hive数据操作合规分析方法。首先,提出基于图的Hive数据操作和合规规则的建模方法,形成数据溯源图和合规规则图;然后,将数据操作合规判断建模为溯源图和合规图的匹配问题,并提出基于子图同构的求解算法。最后,在数据治理平台Apache Atlas及Hive中进行了实验验证,实验结果表明,相比于基于集合、VF2以及Ullmann的合规验证,该文方法具有更高的合规验证效率。
  • 图  1  Hive的合规验证模型

    图  2  合规规则图示例

    图  3  合规验证系统架构

    图  4  合规验证结果统计

    图  5  query35查询的合规结果

    图  6  query6查询的合规结果

    图  7  query94查询的合规结果

    图  8  query16查询的合规结果

    图  9  加入合规分析前后的溯源时间开销

    图  10  不同合规规则图大小对合规验证时间的影响

    图  11  不同数据溯源图大小对匹配时间的影响

    表  1  合规要求及其功能说明

    表  2  基于子图同构的合规验证算法

     输入:${{G} }_{\text{R} },{{A} }_{1},{G}-{{A} }_{1}$
     参数说明:${ {p} }_{ {i} }\in { {V} }_{ { {A} }_{1} },{ {t} }_{ {i} }\in { {V} }_{ { {A} }_{1} },{ {D} }_{ { {U} }_{ {I} } }\subseteq { {V} }_{ { {A} }_{1} },{ {D} }_{ {j} }\subseteq { {V} }_{{R} },$
          ${ {V} }_{ { {A} }_{1} }\subseteq \text{DU}\cup \text{OP},{ {V} }_{{R} }\subseteq { {D} }_{ { {U} }_{\text{r} } }\cup {\text{OP} }_{ {R} },$
          $\text{PURPOSEMAP}\subseteq ({{A} }_{1},{\text{PP} }_{1})\cup ({{A} }_{2},{\text{PP} }_{2})$
          $\cup ({ {A} }_{3},{\text{PP} }_{\text{3} })\cdots \cup \left({ {A} }_{{i} },{\text{PP} }_{ {I} }\right)$
     (1) M(s)= $ \text{VF3} $(${ {G} }_{{R} },{ {A} }_{1}$)
     (2) if M(s) 包含${{A} }_{1}$中所有节点 then
     (3)  从 $ \mathrm{P}\mathrm{U}\mathrm{R}\mathrm{P}\mathrm{O}\mathrm{S}\mathrm{E}\mathrm{M}\mathrm{A}\mathrm{P} $获得关于${{A} }_{1}$操作的目的A
     (4) if OP $\text{∉}{{V} }_{\mathrm{G}-{{A} }_{1} }$ then
     (5)    return ${ \text{purpose}}A$
     (6)  else
     (7)  基于OP $\in{ {V} }_{ {G}-{ {A} }_{1} }$ 获得 ${ {G} }_{ {{R} }_{1} }$ 和${{A} }_{2}$, ${{V} }_{ {{A} }_{2} }\subseteq {\mathrm{D}\mathrm{U} }_{2}\cup {\mathrm{O}\mathrm{P} }_{2}$,
       ${ {V} }_{ {{R} }_{1} }\subseteq { {D} }_{ { {U} }_{\mathrm{r}1} }\cup {\mathrm{O}\mathrm{P} }_{ {{R} }_{1} }$,
     (8)  if ${{G} }_{ {{R} }_{1} }$=$\varnothing $ then
     (9)    return ${\text{purpose}} A$ $ \mathrm{\Delta } $ 合规
     (10)    else
     (11)     ${{M} }_{1}\left({S}\right)=\mathrm{V}\mathrm{F}3$(${{G} }_{ {{R} }_{1} },{{A} }_{2}$)
     (12)    if ${{M} }_{1}\left({S}\right)$包含${{A} }_{2}$中的所有节点 then
     (13)     从$ \mathrm{P}\mathrm{U}\mathrm{M}\mathrm{A}\mathrm{P} $获得关于${{A} }_{2}$的purposeB
     (14)     if ${\text{purpose}}B$ = ${\text{purpose}}A$ then
     (15)      return ${\text{purpose}}A$ $ \mathrm{\Delta } $ 合规
     (16)      else
     (17)     return “-2” $ \mathrm{\Delta }\mathrm{数}\mathrm{据}\mathrm{最}\mathrm{小}\mathrm{化}\mathrm{不}\mathrm{合}\mathrm{规} $
     (18)    else
     (19)     if ${M}\left({S}\right)$ 包含${{A} }_{1}$中的一个节点 then
     (20)       return “–3” $ \text{Δ} $操作和用户身份验证不合规
     (21)    else
     (22)     return “–4” $ \text{Δ} $ 用户身份验证不满足
    表  3  合规规则信息

    表Customer_address执行rank, avg, sum,count, substr
    表Customer_demographics执行count, sum, max, min, avg
