2024 国庆之后

刚刚放完 🇨🇳 国庆假,从东莞回来了北京继续我的博士生涯。这几个月感觉事情特别多,虽然很充实,但也很累,刚好这个七天长假(实际只有五天)可以让我喘口气。很久没有写博客了,上一次关于我自己的博客内容好像就是去年国庆之后的。刚好过一年,也可以当作一个年度总结吧。 今年最主要的几件事情如下。 从硕士变成了博士。 女朋友毕业后,去了东莞工作,并且跟她一起建设了一个小家,也把娃基本都带过去了(现在我宿舍只剩下大白和两个猪)。 女朋友跟我一起回挪威见我的家长了,也是她第一次出国。 家人来了中国参加我的毕业典礼,顺便和女朋友家人见了面,定了亲。 当上了实验室里的研究小组组长,参与了公司的运行,很有打工人的感觉。 认识了很多做科研的人,对科研的认知进步了超级多,也看了超级多论文,找到了自己喜欢的小领域,感觉得心应手,idea 也超级多。 当上了 NLP 课的助教,是一个很有意思的体验。 科研篇 去年暑假被一位学姐拉到导师公司坐着,因为环境好又有钱,然后后面就顺理成章跟她一起做了科研项目,进入了新的小组(刚好一直带我的学长也快要毕业了)。后面,好像是五月份左右,这边的小组组长因为要出去实习,让我当上了组长,感觉非常不一样,一开始压力还挺大的,也觉得自己能力不够,德不配位。但是其实还行,大家也都是为了做科研而已,就是多了很多跟别的组拉扯的情况。同时,来到这边之后找到了自己的新方向了:RNN 和长文本。特别喜欢这种,有点小众,同时还影响力挺大的研究方向,就是一开始看论文有点吃力,毕竟很多基础理论跟现在火热的 Transformer 有比较大的出入,研究难点也很不一样。但是这样才好,同行少一点,看论文的压力也少一点(顺便吐槽一下,现在论文真的太多了,每次放完假都觉得错过了无数篇论文!)。另外,这段时间也把楚简论文投了 ARR,评分不是很好最近就改投 COLING 了。同时也挂了 arXiv,但是这种工作感觉影响力就不是很大,虽然也是首个相关数据集,肯定能拿到一些引用的。感觉我数据集的工作还挺多的,哈哈哈哈哈。 同时这段时间还结束了之前一直做的工作,比如知识编辑的工作中了 COLING。我作为二作的 $\infty$-Bench 和双工交互模型也结束了,分别中了 ACL 和 EMNLP,都挺不错的,引用也很不错,抱上大腿了哈哈哈哈。 博士开始 这个暑假后我从硕士变成了博士了,名义上是普博,但是感觉在我实验室的人眼中我就是直博的。把中文和古文字相关的工作都放到硕士论文里面了,我的博士论文就是 long-context 和 continual learning 了。感觉也挺好的,喜欢这种环境的变化,感觉可以让我有点重获新生、保持新鲜感的感觉。同时还活的了新的宿舍,22 号楼,室友还是原来的。新装修的,环境不错,但是洗澡的地方有点恶心。 前几天 10 月 2 日投了 ICLR,Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling,是我感觉比较满意的一个研究工作,做了也很久,感觉影响力应该会不错。然后今天凌晨两点把它放到 arXiv,争取一下靠前一点的位置。后面会单独写一篇博客整理和介绍。但是这篇工作只是开胃菜,是一个关于模型记忆能力的探索和一些崩溃现象的分析,后面还是得做实际的模型改动来提高模型性能,这才是我向往代表性工作,但是还是挺难的,虽然说 idea 很多,但是机器学习的研究就是一个反复试错的过程,大部分结果还是会跟猜想有很大的出入的。老师想要我训一个很强的 Mamba 版 MiniCPM,但是我觉得不做结构上的改动的这种训练没有什么科学贡献,个人还是希望做科学贡献,哈哈哈哈哈。 生活篇 之前最后一年跟 00 在学校每天都会见面,玩耍。 国庆结束后没多久我们就 10 月 27 日到 31 日一起去了东莞参观公司,感觉环境很不错,就是东莞这个城市很破旧,人均素质也挺低。没办法。29 日去了深圳玩,见了已经工作了的于泽华和 00 的堂姐。11 月 17 日,跟 00 去了孝感市的安陆市参加她高中同学,金洁,的婚礼,好羡慕人家可以这么早结婚。但是习俗确实好麻烦……后面 00 找了个实习,是【比特大陆】,在丰台区,中关村壹号对面,离我们实验室相关公司的【启元实验室】挺接近的。有时候我也会去启元上班,然后就可以一起下班了。 ...

October 10, 2024 · 1 min · 陈英发 Yingfa Chen

2023 年中秋和国庆

今年国庆 🇨🇳 和中秋 🥮 一起放假,我跟 00 一起回来应城参加她堂姐和初中同学的婚礼^[27号是初中同学(魏陈)的婚礼,5号是堂姐(骆卓颖)的婚礼。], 住在她家里十个夜晚^[九月二十六日回来,十月七日走。坐高铁到北京,然后做火车到应城。]。第二次见家长,也算是挺顺利,但是每天都会见到陌生人,有点累,庆幸的是,感觉到 00 能接受跟我家人生活在一起。一号到三号我们去武汉玩了三天,超级开心,跟她在一起连逛商场都是开心的! 小县城的氛围 应城跟我想象中的小县城很像,也是很多远房亲戚,习俗也让人很烦。敬酒、随地扔垃圾、室内抽烟、八卦人家的私事、说话粗鄙、脏、说了不要还非要给人家……而且确实能明显感觉到,这里的人的素质的平均水平挺低的,尤其是上一辈。真的很讨厌吃席,00 也是,这些习俗的麻烦程度让 00 都不想结婚了…… 但是无所谓了,之后能跟 00 在一起就好,除了回来过节应该也很少机会有联系。 武汉 一号到三号去了武汉旅游。早上五点多跟 00 的 ”二妈“(其实是婶,叔叔的老婆)坐车去武汉,坐了一个小时。他们这么早是因为要去谈婚礼的事情,然后害怕堵车。我们在酒店旁边下来,那时候“二妈”下地铁站上厕所,然后 00 非要给她买包子(为了礼貌),然后她最后还是拒绝了,导致我们得自己吃下包子。虽然包子没有不好吃,但是我就很讨厌这种明知人家不要还非要买的行为。 之后我们去酒店的时候,还没有房子,我们寄存了行李就直接去新天地买了杯霸王茶姬的奶茶,然后去了古德寺。网上说不可以穿着暴露,但是感觉路人穿着还是很暴露。 之后还去了解放公园和中山公园,都挺不错的。大城市就是好。里面看到了很好看的建筑物。在中山公园我们问了两个小孩借用羽毛球拍子来打了几下。之后在一个相亲角^[之前在上海都没找到。]旁边跟她的高中同学,彭双,会合,然后逛了一下相亲角。之后我们还坐了一下过山车(公园里面有过山车还是第一次见)。 晚上就去跟她的高中同学一起吃饭。 第二天我们先在地铁站剪了头发,然后去宝通寺,晚上去武商梦时代。这个商场规格超级高,还挺好玩的。第一次看到索尼专卖店,还有 Pico 专卖店。里面还有滑雪的地方,但是太贵的。我们还去了优衣库,买了一些衣服,发现还挺便宜的。以前都会觉得逛街购物很无聊,但是跟她在一起连连逛街买衣服都是开心的。 晚上我们跟她“大哥”(其实是堂哥)和他老婆一起吃饭,吃了魔宗烤肉,然后喝了茶颜悦色。总体来说也挺顺利的,感觉他们也不难相处。 第三天我们去了欢乐谷!是我们第一次一起去游乐场!玩了一个过山车,然后做了太阳飞车,00 就头晕想吐了,果然还是不行……但是没事,还是挺开心的。排队过程中还遇到了插队的人,好恶心! 晚上我们跟一些人(共七个人)一起拼车回来应城,居然比火车还便宜,不错。回来已经11点了,然后回家放下行李箱之后又出去找她初中同学一起吃宵夜。 公事 这个假期有点长,感觉有很多活都没有干。每天都很多事情,感觉这里的人太闲了,应该让他们多上班哈哈哈。古文字翻译的工作还没有干完,目前感觉效果不是很好,我也不想干这个了,感觉很浪费我的时间……至于对齐神经元,貌似现有方法都无法用在自回归模型上面,但是对齐问题好像之后自回归模型才会出现。不知道是不是我没有找到,目前还没有找到一篇研究神经元对生成结果的影响的工作。ROME 的 Causal Tracing 感觉可以用,这两天得赶紧做点东西出来。