天天财汇 购物 网址 万年历 小说 | 三峰软件 小游戏 视频
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行]
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏--
  天天财汇 -> 科技知识 -> 到底什么样的CV工作才是好的工作而不是灌水的烂工作? -> 正文阅读

[科技知识]到底什么样的CV工作才是好的工作而不是灌水的烂工作?

[收藏本文] 【下载本文】
时常能听闻如下观点: 深度学习不就是调?work就行。 CV直接a+b+story telling=顶会。 比如下图 [图片] [图片] 所以,到底什…
每个人对于「好」的定义可能都不一样,这里仅分享个人观点,欢迎交流。
首先感觉A+B是没有问题的,问题在于A+B的结果是不是「真的」有用。
关于storytelling这件事,作为研究者我们还是不要用抵触的心态面对,毕竟论文是呈现工作的最终载体,适当的「包装」能力应该是我们的专业素养才对。只要不是原则性问题,适当的storytelling其实也无可厚非。
在此之上,如果一个团队做了A+B,并且把代码开源了,代码排版干净好用,文章中的主实验、ablation又都能复现,显然这会是一篇好工作,所以A+B也不是问题所在。
真正让我们感觉「水」的工作,是「货不对版」,讲的故事跟实验对不上,代码又不开源,还能中顶会(我们的同期paper被拒掉的情况下),才让人恼火。
但是我们也得清楚,每个会议其实有大量的工作都在服务于学生毕业、教职评优等种种业绩需求的,没办法,人都是社会性动物,有人的地方就有江湖,每个会议都是这样。尽管A+B灌水的工作比比皆是,也不会影响会有solid的A+B工作诞生,我觉得二者并不冲突。
那么所谓「好工作」应该是什么呢?我觉得就是把工程问题真正做solid了,代码也开源了,实验真正做到可复现,对社区有帮助的工作。结合题主的问题描述,我就举一些我心目中的A+B范式的好工作:
Stable Diffusion[1] = DDPM + VQGAN。这个idea其实不难想到,跟stable diffusion同期的工作中就有CVPR 2022的VQDiffusion[2],而stable diffusion之所以能带来这么繁荣的AIGC局面,正是因为它把文生图做得这么work,加上图像生成社区一直以来的强大活力,stable diffusion也确实实至名归了。


Stable Diffusion的模型架构图Diffusion Transformer (DiT)[3] = Diffusion Model + Transformer。同样地,这种A+B的点子都不难想到,但是真正的难点在于,怎么样二者的结合做work,本质是一个工程问题,但是能把工程问题做好已经具备了好工作的必要性。甚至在去年DiT放出来的第一时间,大家对这个概念还不太感冒,直到今年Sora和Stable Diffusion 3不约而同采用了这种模型范式,DiT才真正证明它的价值,事实也证明了好的工作迟早都是会发光的。


DiT的模型架构图SUR-Adapter[4] = LLM + Diffusion Model。挺有意思的一个工作,不知道是不是一个用LLM跟diffusion model生成结合的工作,中了ACM MM 2024。论文题目自然也非常好起:《Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models》。


SUR-adapter的模型架构图
还有很多其他很solid的工作,比如说CLIP,带动了cv各个任务的多模态发展;ControlNet,将AIGC进一步推向商业落地,等等。这些工作虽然不是A+B,但是也都将工程问题做好了,真正脚踏实地的工作,才能经受各种各样的同行评测,成为真正有价值的研究。
如果大家想要了解更多关于Stable Diffusion和Diffusion Transformer的解析,欢迎关注我的文章:
Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切64 赞同 · 4 评论文章


最后,欢迎大家关注我的个人GitHub账号,我总结了一些课题的顶会paper list,有需要的小伙伴可以参考,paper list会持续更新最新发布的顶会文章以及其他研究方向。你们的一键三连、GitHub Star就是对我最大的支持!
Video Generation Paper List?github.com/AlonzoLeeeooo/awesome-video-generation
Text-to-Image Generation Paper List?github.com/AlonzoLeeeooo/awesome-text-to-image-studies
Image Inpainting Paper List?github.com/AlonzoLeeeooo/awesome-image-inpainting-studies
参考^High-Resolution Image Synthesis with Latent Diffusion Models https://arxiv.org/abs/2112.10752^Vector Quantized Diffusion Model for Text-to-Image Synthesis https://arxiv.org/abs/2111.14822^Scalable Diffusion Models with Transformers https://arxiv.org/abs/2212.09748^SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models https://arxiv.org/abs/2305.05189
至少要有点用,就想象你自己是一个读者,拿到这篇东西说“那我可以用它的xyz去做ijk的事情”就够了。不管是里面的工程部件,还是有用的分析方法,还是cuda kernel,或者设计理念,只要有用能帮人干事就好。刷了sota也好,至少可以让人在别的地方用你的成品刷点他们的sota或者kpi。剩下的你不能预知也不可控制,交给历史和时间。
这些大白话用一个字概括就是我们说的impact。再用回大白话说,你花几年时间炼丹,消耗那么多青春,牺牲出去打炮享受人生的时间,秃了头错过原本可以甜甜恋爱的对象们,总得感觉自己做了点什么实事不至于白费。这种值得感也是我们说的impact。
当然造假纯科幻直接0分,GPT都能编的比你辞藻华丽。ACL里满是心理扭曲的,就是这样在科幻里涤荡白费了一辈子到七八十岁换来一句“我这一生原本就不值得”的废人。
Annual Meeting of the Association for Computational Linguistics?aclanthology.org/venues/acl/
简单回答一下,我觉得一篇好工作最明显的特征能够scalable。首先,基础科学为什么重要,因为一个发现可以影响多个领域的研究方法,影响力可以看作无穷大;其次,应用科学的话,如果只说cv领域的话,就是解决当前发展的瓶颈的理论,比如resnet,解决模型太深就很难收敛的问题,扫平了后续发展道路,影响了深度学习领域的方方面面,或者就是提出一个新的认识问题的方式,看待世界的方式,比如Ross Girshick的R-CNN系列,或者提出一个新的好用的基础框架,比如alexnet, transformer, stable diffusion, etc...一个方法简单与否并不重要,重要的是解决一个领域卡脖子的问题,卡住的人越多,就越重要。从这个角度来讲,A+B式的创新,如果只是说能提performance,没有任何insight说明解决了什么问题,那无论如何都不算一篇好的论文。
如果你有10000张卡,你还会用这个算法,那它就是好算法
一家之言,说说自己熟悉的imaging, 也就是成像。这个领域顶级工作只有一个衡量标准:idea。
最顶级的工作是“make invisible visible”. 让本来看不见的看得见。这种工作自然就是开创领域的工作,从0到1。基本上本来不容易看见的只有是极端条件下,比如太深,太小,太远。所以太深会对应有scattering 上的工作,太小比如超分辨,太远就比如LIGO. 这种工作的级别就是诺奖级或者准诺奖。超分辨的sted 和 storm 就是拿了14年的诺奖。其次是散射的文章也总是大新闻。另外比如说event horizon telescope,把地球连起来的sythnetic aperture,可以观测黑洞。这些都是大新闻专业户。
但是这里需要强调的是,有一大类claim 是做“make invisible visible” 的工作,实际上是整烂活。比如“seeing xxx from xxx” 这一类,每次就是换换算法或者场景,然而每次新闻宣传又是大忽悠,仿佛横空出世一样,然而每篇之间实质上也是incremental work。
2. 其次是一般开创方向的工作。也就是定义了一类研究方向的工作。这种比较典型的是vincent et al 2018 年的SIGGRAPH deep optics。e2e 去优化光学成像系统一定程度启发了后续很多文章。在我认知里2016年的metalens也可以算是这种级别的工作。
3. 其次是开创子方向的工作。
4. 再次是sota的工作。比如说通过某种技术,或者让物理模型更准确,从而让xx的重建达到一定quality,比如2018年cvpr best paper 的nlos.
5.
6. 各种换皮工作,这里在我看来已经是灌水级别了,然而却是当下大多数工作。比如inverse problem 这个方向,inverse problem 可以用到非常多的task。 这样子的话可以不停用火起来的算法来灌水,从时间脉络上看:Compressed Sensing -> CNN-> Deep Image Prior -> Plug and play -> Physics based learning -> Vision Transformer -> Implicit Neural Network -> Diffusion Model -> Gaussian Splatting. 子子孙孙无穷尽也。我并不是说这些方法本身水,而是说用这些方法来update现有task 实际上是灌水。
7.
之前revisit某个任务,发现一个超参数能极大地提升性能,做了很多empirical实验这个发现的有效性和背后可能机制,感觉还算solid,就是没啥新东西,然后写完了放到arxiv上,的确让后面的人用了这个技巧提了一些点……然而似乎审稿人会觉得这种玩意不novel……这玩意是我这几年做的最有用的一个玩意了
直接传送门到我的这个回答吧: https://www.zhihu.com/question/575533314/answer/2862735659?utm_psn=1747252312374968320
如果一个工作不能发paper也不能对你的晋升毕业起到帮助,你还愿意牺牲自己玩游戏打篮球健身谈恋爱的时间去深入钻研,这就是好工作呀
基础要求:可复现
进阶要求:可扩展,一定的泛化性,很多任务上有效
高级要求:良好的泛化性,大部分任务上有效
神级要求:非常好的泛化性,在绝大部分任务上有效,甚至可以泛化到不同的模态;创造性的思想,引出了新的研究方向。比如:resnet,relu,gan,diffusion
工作这么多年我依然非常反感非必要的中文英文掺杂着写文章和说话的人。
不灌水的是好工作
叠个甲:
1. 我指出的是典型情况,意味着可能存在某些离群点
2.我知道什么是垃圾不代表我不生产垃圾。毕竟好idea不常有,有口饭吃不饿死才是刚需。
3.做一手好菜比评价一份菜好不好吃难太多了。私以为屎上雕花并不可耻,但是自我催眠那坨屎是香的,丢了做好工作的心气儿才是最可怕的。
————————
好的工作很难评判,但是相当一部分垃圾工作很好分辨:
1. 虚构应用场景的应用型工作,我称之为屎上雕花。就不点名得罪同行了,大家应该能看出来哪些论文的目标纯粹是为了顶会喜加一(而且指不定哪天我为了生存也得回来做这种问题,给自己留条后路 )
2. 编造一些玄之又玄的概念/噱头,insight不清不楚,然后给大家整电路图(印刷电路板般的走线复杂程度)模块的工作。
1和2有很大重叠度。
方法讲道理,实验有效果就已经是很好的了,如果再能改动小或者工程量小,那就是更好。
推荐看修宇亮(
@既生宇何生亮
)大佬的译文:
当我们在谈论科学研究的创新性时,我们在谈论什么?xiuyuliang.cn/blogs/novelty.html
为什么就十几个回答就可以做到热搜?
路人路过
我以为是声优
刘强东、马云、马化腾都没有做到的事,竟然被一个70后小保安靠泡妞泡做上市了,他开了一家专门接待没有本金只有情怀的小酒馆,靠卖10块钱的啤酒一年狂赚8个亿,在全国疯狂开店800家,它就是被称为夜间星巴克的海伦斯。
你以为他简简单单的只是个小酒馆吗?那你就错了,它商业模式的吸金程度已经远远超越了当下99%的企业。根据弗洛斯特沙利文的数据,从2017年到2021年,海伦斯已经连续五年位居国内酒馆规模第一位,还号称是酒吧界的拼多多。
那海伦斯为什么吸金能力这么强?其实原因就两个字:便宜。
首先,海伦斯把自己定义为年轻人的聚会空间,假如大学生想要聚会,但是没钱去酒吧,这个时候小酒馆出现了,没有最低消费档次,还比酒吧要高,海伦斯就是瞄准的这群穷学生还有月光族的年轻人,而这也正是海伦斯的核心竞争能力。在赚钱之前,先让用户占尽便宜,成为了年轻人不用皱眉头就能做的选择。但是对于老板来说,酒水卖10块钱一瓶,甚至6块这么低的价格他能赚钱吗?那肯定可以,因为没有人做生意是为了让客户白嫖的,赚钱肯定放在第一位的。
那为什么这么便宜还能赚钱?这就有赖于海伦斯打造的极强的供应链,一年卖2000多万瓶,7成都是自营产品,这么大规模的采购量,使得他对上游有强大的议价能力,不仅成本低,而且毛利高达68%。但是仅凭便宜的产品想要赚到8个亿,那简直是异想天开。
所以这就不得不说到海伦斯的第二招,就是他复利营销模式。其别出心裁的三招,非常值得所有实体老板学习只需要简单改动就可以复制到自己的生意中去!
第一招、新店开业前7天,每人每天可以免费领6瓶啤酒。这就是新店的冷启动。这种无门槛的羊毛在价格敏感的群体很容易引起非常轰动的效应,所以海伦斯开业的时候门口都会排很长的队。
第二招,每位新用户赠送66块的无门槛酒水券,主要是吸引那些赶不上开业的人来消费,让他在开业第一个月里就有一个强烈消费的理由。
第三招,每天到店前30桌免费送东西,主要是不计成本的迅速打开酒吧的氛围,把人气冲上去。海伦斯是一个给年轻人做的标准化的产品,所以必须要先满足他们的需求,就是来嗨,来放松。这些给前30周免费送礼品的方式就是用来做气氛,做冷启动的。
为什么海伦斯特别重视拉新,还有第一次消费的人呢?因为它的特点太明显,只要消费者来过一次,就能明显感受它的卖点,那就是价格实惠便宜,这样就完成了很好的记忆点和传播点,大大加强了消费者的复购。看起来平淡无奇的营销,但其实精准度和力度都是非常强大的,等到赚了钱之后,就是不断的复制开店。
那么一个问题来了,开这么多家门店,海伦斯的人员能撑起来吗?所以他采用了一个折中方案,就是着重培养合格的店长,其他的员工都是找第三方的公司来外包。自己不招员工,只培养店长。海伦斯近80%的员工都是外包的,并且基本都是一些做兼职的大学生。面对这些不稳定的员工,海伦斯为了让新手能够快速上手,他把门店的经营流程全部自动化、标准化,能用软件和系统替代的就坚决不用了。人员招聘和培养上,海伦斯算是把海底捞的精华全学到。
我问你,如果你现在想赚钱,你一定要解决什么问题?有人肯定会说服务质量、供应链管理等等,其实这些都是最基础的。有一点建议,准备做生意的还是正在做生意的,一定要考虑到,就是社交属性。
海伦斯正是具备了社交属性,才有了自己的王牌。我问你,让你一个人去酒吧喝闷酒,你愿意去吗?肯定不愿意,对吧?海伦斯就可以帮你做到让你不会一个人喝闷酒。比如说今天你一个人在宿舍待着没有意思,你就可以打开海伦斯的小程序,提前发布拼桌的消息,等帅哥或者美女过来拼桌,你也可以在小程序上看到有谁在等待拼桌,等待拼桌的是小哥哥还是小姐姐。
海伦斯基本所有的服务员也提供了社交属性的价值,就是如果你喜欢哪个小哥哥哪个小姐姐,你告诉服务员,他就会主动的去帮你要微信。海伦斯就是靠这一整套完整的系统,海伦斯足足赚了8个亿。
从高性价比的定位,到强有力的营销,再到标准化的管理系统,都是海伦斯能够成功的秘诀。反观我们很多老板,连一套完整的商业模式都没有就去创业,那想要成功就会比登天还要难。
权工匠给大家做分享的意义也不是要带大家去投资去赚钱,只是想让大家打开自己思维模式的困境。
比如我们浙江有个开影院是足道的老板,他就用海伦斯这种模式,刚开业就收回200万的投资成本,那他是怎么做的吗?
首先,他从店里挑选了一些经常来的顾客,而且每一次来都具有一定的消费能力。他找到他们,跟他们谈,大家每个人投资5万就可以享受店的三年分红权,店前三年利润的50%都拿出来分给各位股东,比如三年总共赚了800万的利润,我就拿出400万按入股比例分给在座的每一位股东,但是三年之后所有的利润就全部回归经营者,但是往后我每一年返还15000的消费金给你,连续返4年,相当于你投资5万就能得到6万的消费金。所有股东都觉得这根本就不是资本投资,而是一种消费投资。客户会想,前面3年能拿到分润,后面我还能拿到价值远超5万的消费金,这种便宜会有谁错过吗?
所以,老板仅仅活动三天,收上来的钱就远超自己投资金额。对于老板而言,自己一分钱没有花,就能够迅速扩张、裂变、抢占市场,还把生意的风险给分摊掉了。如果你看到这里就沾沾自喜的话,那权工匠告诉你,重头戏还在后面。足疗店老板让全县城75%以上爱捏脚的人都成为了自己的股东,那这些股东身边的朋友、亲戚、同学是不是也成了潜在客户?
举例,如果你朋友开了个足浴店,你还会去其他足浴店消费吗?作为老板来说,我们不能总想着靠自己的资源人脉就把公司做大,这是作坊式的运营,已经远远落后于当今社会的市场经济,社会在进步,时代在发展,我们也要用发展的眼光去看待事物发生发展的规律,没有任何事物是一层不变的,唯一不变的就是一直在变。
无模式不创业的移动互联网时代,好产品&好服务≠盈利,只有好的商业模式和好的营销才是你企业的核心竞争力。
对此,您怎么看呢?
欢迎留言评论、分享、点赞加关注
[收藏本文] 【下载本文】
   科技知识 最新文章
《消失的问界里》为什么网传华为选择大面积
特斯拉万人大裁员涉及中国市场,销售部门是
媒体报道「特斯拉一天内失去 2 个高管和 10
去年是「大模型元年」,今年会是「AI应用落
2024 年人工智能方向的就业前景怎么样?
如何评价小米汽车SU7全球首例无故抛锚?
如何评价比亚迪与大疆合作发布的车载无人机
如何看待波音「吹哨人」遗言曝光:如果我出
电动汽车为什么一下爆发了?
怎么看待华为太空宽带计划?
上一篇文章      下一篇文章      查看所有文章
加:2024-03-07 13:21:11  更:2024-03-07 13:45:23 
 
 
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
网站联系: qq:121756557 email:121756557@qq.com  天天财汇