基于学习的编码

基本思路:将每个指令视为一个单词,每个函数视为一个文档,通过在反汇编文档的指令序列上应用word2vec系列算法来表达指令的语义信息。

相关工作

Asm2vec

方法:使用PV-DM模型生成指令编码,一个函数的编码同时包含这些指令的编码。每个指令视为一个操作码和最多两个操作数,然后分别学习操作码和操作数的编码。

挑战

嘈杂的指令上下文

通常指令的上下文采用上下文embedding的基础假设是:控制流图的目标指令之前以及之后的指令通常与目标指令具有某些关系,但在某些情况下,这种假设并不成立。例如:编译器优化为了最大化指令级别的并行性,趋向于打破这种假设

远距离数据依赖性问题

大多数现有PTM无法处理超过512个指令以上的场地,因此在这些PTM训练MLM任务也难捕获到远距离的数据之间的关系

results matching ""

    No results matching ""