如何评价AI相关论文中的novelty,什么样的工作才可以不被称为“novelty is limited”?
【资料图】
电光幻影炼金术(香港中文大学 CS Phd在读)回答:
这是个好问题,也是我第一次被喷novelty is limited+reject之后折磨了我几个月的问题。
为什么novelty的问题这么让人难受
难受点1:novelty问题没法给我有用的梯度,让我改进工作。比如说,我哪个实验做得不好,做得不够,比较地不公平。这些都可以很快地加以解决,解决思路几乎是不言而明的。但是如果审稿人/老板喷novelty的问题,我该怎么变novel呢?这个就没那么容易了。创新其实是蛮难的。
难受点2:novelty问题往往看上去是全盘否定,做了几个月的工作,最后拿到的意见就是没有novelty,看上去就像是否定了整个项目的意义,感觉几个月甚至一年做的啥东西都不是。
难受点3: 刚开始做科研的时候,往往觉得自己创新点特别多。很多做科研的同学,本科都是佼佼者,或者都是认真学习的,自然能发现很多新问题,提出很多新解法。我作为当年做竞赛的同学,也是喜欢做新问题的。但是第一次吃了顶会的reject,是因为不够创新,看上去又确实不够创新,让我感觉我“觉得自己很会创新”的信念受到了打击。
怎么客观定量衡量novelty
novelty这个问题本身是有一定主观性的,就现在的投票决定中稿而言,想要中顶会不能有一个审稿人觉得novelty严重不足。novelty如果有问题,可能就意味着洗稿等学术不端问题,是严重的(尽管可能我们是独立地把一个工作做了一遍)。
衡量novelty,最重要的是凭审稿人的感觉。这是让科研区别于工程的一个重要不同,科研是一种文化的传播,不是像工程一样做计算和复现。啥叫做文化,维基百科定义,来源于古罗马哲学家西塞罗使用的拉丁文“cultura animi”定义,原意是“灵魂的培养”,由此衍生为生物在其发展过程中积累起跟自身生活相关的知识或经验,使其适应自然或周围的环境。一言以蔽之,novelty的衡量主要靠审稿人的直觉、知识或者经验。
那么novelty是不是不可以衡量,不可以说道理的呢?也不是,毕竟交大的博士学长已经证明了,相声的笑果都可以用公式建模呢。
本文简单使用一个公式(下面称为novelty公式):
Novelty=基础分+正分-负分
以10分为上限的衡量系统为例,基础分是5分,5分算拒绝,6分以上算接受,越高越好。
正分加分项:
提出了完全全新的问题,真的别人没研究过,而且不是“茴香豆的茴有几种写法“这种无聊的问题。新的越本质加分越多。
提出了颠覆前人理解的新结论。比如vit。
提出了一个全新的,很好用的,很本质的概念。比如fasterrcnn里的anchor。
有全新的、重要的实验发现。比如乐透猜想。
提出了一个全新的更好的解决办法。虽然大多数论文都在搞这个,但是这个是最难加分的,因为新意很难体现。一个普遍的衡量方式是估计代码的复杂度,因为审稿人都会码代码。如果说这个东西复现就是在原有代码上加一两行,那多半不行。
负分减分项:
文章中概念都是很旧的,特别是标题里。比如标题是“一种比LSTM更好的时序建模方法”,我不否认确实LSTM现在还有提升的空间,但是LSTM本身是13年的工作(上世纪提出,13年谷歌用于机器翻译),后面提升LSTM的工作太多太多了,这个标题可以套用在很多方法上,感觉是18-19年穿越过来的,没有新意。
单纯的应用型文章。比如标题是“solving XXX via cnn"看上去就不是很好。当然如果文章做的特别好,不是简单地拿来用,也是可以的。
单纯地A+B。比如发现两个模块非常好,然后把他们放在一起水一篇新的,这样看上去就很容易被怼。
实验效果跟之前的没啥差别,比如涨了0.1%。那就是说跟之前的没本质区别。
衡量novelty的常见主观错误:
resnet的新意在第三点,提出了新的本质概念:短路,而且通用有效。不代表加几行代码的一定就可以算novel。事实上大部分novel的发现都需要很多代码。
目前审稿人很可能来自于不同领域,最好是能用通俗易懂的方法让不同领域的人明白。
方法是方法,novelty是novelty,要一针见血地指出来novelty在哪里,而不是一大段不novel的赘述,让审稿人也不知道哪一部分是已有的,哪一部分是提出来的。
就大部分实验型的文章来看,不涨点的算个减分项,如果没有其他加分项,就算不novel。另外本文只讨论是否novel,现在“中稿是随机过程,好文章不一定被接受,但坏文章总是被拒绝”(李飞飞的话)。
根据上面公式可以看出,idea只占很小的一部分,可以有很多不同的方式突出novelty。
怎么解决novelty的问题
1.多读文献加总结是科研有突破的重要途径。建议从早期的文章开始读,读的时候想象自己穿越回当时,能不能发现问题在哪里,有没有什么新的想法。然后再找后面的文章查对一下,看看自己的想法对不对。通过这种方式促使自己学会发现问题,找到创新点。
2.多阅读一些专业的审稿意见,训练自己的鉴赏能力。很多未解决的问题都能从审稿意见中发掘出来。欢迎关注我的系列视频栏目「从审稿到中稿」,带大家从审稿意见中发现问题,最终实现中稿。
3.多读读arxiv,最好培养定期翻看arxiv最新文章的习惯。很多厉害的文章都会先放在arxiv上,而做研究掌握一个好的timing至关重要,早点入局就能抢到先手。另一方面,arxiv上很多文章做的不够好,问题没做完,自己多想想努力一下就能有更好的结果。当然别忘了引用arxiv的文章并讨论区别。
4.培养自己对科研问题的格局把握,具体说,判断一个问题是三个月之内可以解决的,还是三年可以解决的,还是三十年也解决不了的。不要凭自己的主观臆断来判断,多看看大佬怎么说。如果很多大佬都觉得一个问题三年之内可以解决,并且很有趣,那么就是一个很好的入手问题。
5.有人说,看到很多论文准确率都很高了,不知道该咋办。这是个新手非常常见的问题,我想引用一个著名的比喻来回答。一个问题的模型,就好比一架很复杂的波音飞机,有几百上千个按钮,有的重要,有的不重要。你现在看到的,就好比看到有那么一架飞机飞的很快。但是更有意义的问题是,你对这架飞机的性能完全了解吗?哪些部分是真正起作用的?能不能造一架更简单但是飞的更快的飞机?如果不能,瓶颈在哪里?这架飞机是不是足够鲁棒,在任何条件下都能飞得很好?
6.有人说准确率已经很高了,比如说达到了95%。一个事实:如果把5%的错误样本拿出来构成一个数据集,那么它的正确率将是0%。
所以关键不在准确率多高,而在失败的样本是不是重要。在真实的自动驾驶或者机器人中,有1%的失误可能会导致很快报废。
7.永远关注交叉领域或者新领域,并大胆提出新想法。可能新想法会被另一个领域的人爆锤,不要灰心,这是常态,并不要怕碰壁成为作为阻止你学习的理由。不要自己给自己设置壁垒。
8.可能导师会觉得研究另一个领域会投入很多资源(比如算力或者他开会的时间),但是他挡不住你学习另一个领域的论文。资源可以受限,但是思想不会受限。特别是一个领域的突破性进展,往往可以影响其他领域。
9.把卡住自己的问题记录下来,之后会有意想不到的影响。我跟swin transformer(今年获得了比best paper很难得的马尔奖)的作者聊过,他们是怎么想到swin transformer的?他们说,之前就有想过把self attention替换cnn,但是瓶颈是计算量会大很多,看到谷歌出了vit,算的很快,解决了他们之前的瓶颈,就是self-attention也可以很快还很好,这样他们就产生了swin的想法。
10.人的创造力是无穷的,科研更多是一种文化,比赛才要刷点。比如同一届的会议有很多论文在imagenet上点数都差不多,但是都各有亮点。百花齐放,百家争鸣,而不要内卷。
11.多复现一些代码,很多论文都是表面好看,实质代码一跑就有很多问题。
12.历史是会循环的,旧的领域的突破往往可以适用于新的领域。因此多看看经典论文很有帮助。
13.要掌握一门到两门可以泛化的,经过大量事实验证有效的方法论。举个例子,比如加速计算的cuda编程等一系列方法,在不同的领域都可以试用。
14、很多好的idea都是在讨论和碰撞中产生的。尽量多和研究者讨论,方式不限于
(1)实验室交流
(2)参加讨论会或者研讨会
(3)微信群组讨论,可以看评论区加入我的讨论群
(4)参加一些国际顶级学术会议,不需要发表论文也可以参加
(5)网上看workshop的录像
15、没有比较就没有伤害,把同一个顶会做同一个任务的论文放到一起,高下立判。
16、想到什么好的idea,马上去试,不要犹豫。没有不好的idea,只有不明确的idea。
17、如果单个数据集不能做好,尝试做更多数据集,甚至是跨领域数据集。小数据集上有用的,不一定大数据集有用。
多谢大家点赞~关于更多利用统计信息分析审稿过程,请关注我的视频连载栏目《从审稿到中稿》。
Simon Jia 回答:
Novelty在于Difference,在于Advance。
Novelty在于你的动机Motivation,你Diss(当然不要说得太直白)哪些工作。
对于某一个研究领域,假如此研究领域有3大类方法,每一大类方法中又有很多此类的代表作。
如果你的Motivation仅仅是Diss某一类方法中的某一种方法,这就是小的Novelty,你仅仅是针对这种方法做了一个Incremental的工作,但这也是有Novelty。
如果你的Motivation是Diss某一类工作,那你的Novelty比较充足。
如果你的Motivation是Diss此领域中的所有工作,你的研究为此领域带来了New Insight(例如机器翻译中提出了Attention),推动了此领域的发展,是Revolutionary的工作,那你的Novelty非常充足,足够尝试各种顶会顶刊。
从上面也能看出,你要想能够快速(5min之内)评价一项工作的Novelty,你首先得对此领域非常了解,只有这样你才能看出Difference。所以刚开始研究一个领域或者问题的时候,基础要打好,多读论文、多总结,这样你才能摒弃一些不切实际的IDEA,你才能评估自己工作的Novelty,将自己的工作卖个好价钱。
另外一种Novelty是你直接开辟了新领域,挖了新坑(例如提出了联邦学习、提出了元学习、提出了Manifold),这绝对是有Novelty,你可能成为这个新领域的祖师爷,但一般你要达到一定境界才能做出挖坑级别的工作。