最近在做 vulnerability detection 研究。输入是一个 function 的源代码,输出是 0 或 1,代表是否是 vulnerable 的。这个过程中重要的一点是怎么把 源代码 转成 embeddings。用 word2vec 可以预训练。
    但如果想试一下别人的 model,这个 model 可能也是用于分类任务的。

    那么这种情况下,如果先用他的 model 训练,提取出 embeddings,再放到你自己的 model 里,训练你的 model,就会有 2 个训练目标。这样做是不对的。

    正确的做法是,把别人的 model 分类器那一部分去掉,然后把剩下的接到你自己的 model 里。这样就只有一个你自己的训练目标了。