上汽集团:连续3日融资净偿还累计3057.32万元(05-30)
2023年5月30日上汽集团连续3日融资净偿还累计3057 32万元
都说医疗、金融等专业领域的语料数据稀缺,制约大模型AI的发展,那能不能让两个ChatGPT对聊,聊出点数据出来?
(资料图片)
5月28日,天桥脑科学研究院(Tianqiao &Chrissy Chen Institute, TCCI)主办AI For Brain Science系列会议第二期—— “面向AI模型的数据生成方法及其对医疗领域的启示”。在上海交通大学计算机科学与工程系副教授吴梦玥主持下,三名青年科学家分享了关于破解大规模语言模型(LLM)数据瓶颈的看法和实践。
自对话和自蒸馏训练——快速构建专属GPT
国际上一项研究评估指出,ChatGPT回答癌症相关问题的水平已经与美国国家癌症研究所的官方回答持平。然而,ChatGPT只能通过受限的API进行访问。涉及到个人医疗,人们也普遍不希望将自己的隐私信息分享给第三方公司。
针对这样的难题,加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出了一种能自动生成高质量多轮聊天语料库的流程,利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优、增强开源的大型语言模型LLaMA。他们从而获得了高质量的专属模型“白泽”,并在数天前推出了2.0版本。这个名字的灵感来源是中国古代传说中的一种神兽,“能言语,达知万物之情”。
许灿文介绍道,白泽在这个过程中并没有学会新的知识,只是提取了大模型中的特定数据,并且保留了ChatGPT 分点作答、拒绝回答等强大的语言能力。这在专业上被比喻为一种“蒸馏”。进一步地,他们提出了反馈自蒸馏的概念,即利用ChatGPT当教官,对白泽回答的结果进行评分排序,从而进一步提高了白泽模型的性能。
许灿文认为,白泽通过自动化的知识蒸馏,在特定领域达到ChatGPT的能力,成本却远远低于ChatGPT,兼具经济意义和实用意义。在医疗领域,本地化或私有化建构的模型将有利于消除隐私顾虑,辅助患者诊疗。未来也许每个人都将有自己的专属AI助手。
一种新的数据生成策略:大模型优化医疗文本挖掘
莱斯大学博士生唐瑞祥和合作者同样基于大模型提出了一种新的数据生成策略,并在命名实体识别(NER)、关系提取(RE)等经典的医疗文本挖掘任务上取得了更好的表现。
ChatGPT具有创造性的写作能力,在医疗、金融、法律等标注数据很少的领域以及知识密集型领域表现出色。然而,具体到医疗文本挖掘,他们发现将ChatGPT直接应用大型模型处理医疗文本的下游任务,表现并不总是优秀,也可能引发隐私问题。
唐瑞祥等提出了一种新策略:利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果,同时因为模型数据在本地,也大幅降低了潜在的隐私风险。
他们进一步指出,随着开源大模型数量的增加和大模型能力的提升,其产生的文本数据与人类产生的文本数据的差别将越来越小,发展检测二者差别的技术手段将是一项富有挑战性的工作。现有的两种检测手段,无论是黑盒检测——直接比较大模型生成的文本数据与人类生成的文本数据(比如比较高频词分布),还是白盒检测——开发者在生成文本上做标签,在未来都可能失效。能否有效地检测出数据是不是GPT生成的,将影响到广大用户对大模型AI的信任程度。
大模型时代的数据生成有什么不一样?
那么,从历史演变的角度来看,在没有GPT的时代,科学家们如何解决数据稀缺难题?大模型又带来了哪些新趋势?
上海交通大学博士生曹瑞升对大模型时代来临前夕,基于深度学习模型进行自动化数据生成或增广方面的研究,尤其是反向生成进行了回顾性的总结。深度学习本质上是一种找出从输入x到输出y的映射的过程,所以需要大量的 (x, y)数据对来训练。在医疗这样不容易获得大量真实数据的领域,就需要人为生成更多的(x, y)数据对。
曹瑞升将数据生成拆解为三个主要模块。第一个是针对标签(y)的生成,介绍如何对将生成的标签与真实数据的分布进行耦合比较。第二个模块是在生成数据时,介绍生成初始数据(x)的方法和限制。第三个模块是在形成完整的数据(x, y)对之后,应该如何保证数据质量。
随着大语言模型规模的不断增大和能力的不断提升,其生成的数据质量也越来越高。这种生成数据所训练得到的模型不仅可以解决简单的任务,如文本分类,还可以应对问答等更加复杂的任务。
展望未来,曹瑞升总结了数据生成在大模型时代的几大新趋势。首先是构建更加通用的模型,以确保其能够应用于多样化的任务。这意味着模型需要具备广泛的适应性和泛化能力。其次是从特定任务出发,进一步精细化地处理。例如,在医疗领域,甚至可以针对特定类型的抑郁症进行专业化的任务处理,提供更加精准和个性化的解决方案。最后,数据生成和模型训练的过程将从分离走向融合,而为了保证数据质量的硬性过滤也将逐渐被软性控制所取代。
数据生成研究与应用的发展,为大模型AI走向各个专业领域,尤其是医疗领域提供广阔的可能性。TCCI致力于支持全球范围内的脑科学交流,仅2022年就主办、合办、支持了近200场会议,遍及北美、亚洲、欧洲和大洋洲。AI For Brain Science系列会议致力于促进AI与脑科学研究人员的讨论合作,将持续聚焦领域内的数据瓶颈和关键痛点,为大模型AI的未来突破提供创新土壤,促进前沿AI技术在脑科学领域发挥更大的价值。
TCCI由盛大集团创始人,中国网络游戏、网络文学行业开创者陈天桥、雒芊芊夫妇出资10亿美元创建,聚焦AI+脑科学,支持、推进全球范围内脑科学研究,造福人类。TCCI一期投入5亿元人民币支持中国脑科学研究,与上海周良辅医学发展基金会合作成立上海陈天桥脑健康研究所,与华山医院、上海市精神卫生中心等建立战略合作,设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室。在国际上,TCCI与加州理工学院合作成立TCCI加州理工研究院。
关键词:
2023年5月30日上汽集团连续3日融资净偿还累计3057 32万元
在一个部门中,日常开会和内部知识分享培训是非常重要的环节,但是传统的投影方式往往会遇到一些痛点。比如
山东阳信:深加工促特色鸭梨产业发展5月30日,在山东省滨州市阳信县的一家梨醋生产企业车间内,工人生产梨
5月30日上午,中国石油塔里木油田公司深地塔科1井开钻入地。深地塔科1井开钻,是中国深地工程的历史性时刻
来为大家讲解以上的问题。磷酸组胺,酸组胺介绍这个很多人还不知道,我们一起来看看!1、磷酸组胺,无臭;在
1、艺术生高考分数线比较复杂,各省区不同,本省区在省区内内招生和在省区外招生也不同。2、下面是不同省区
央视网消息(新闻联播):俄罗斯方面今天(5月30日)发布消息称,莫斯科今天遭乌克兰多架无人机袭击,造成2
>>>点击预约直播4月, 2023投资炼金季沪市专场 正式启动,在上证路演中心指导下,将有多场沪市上市公司业绩
相信目前很多小伙伴对于张九仪都比较感兴趣,那么小搜今天在网上也是收集了一些与张九仪相关的信息来分享给
人民网北京5月30日电(韦衍行)5月30日,国家文物局在京召开“考古中国”重大项目重要进展工作会,聚焦商代最
“台湾5亿身家高中生坠楼案”疑点重重,据台媒中时新闻网5月30日报道,继有租客出面曝坠楼高中生赖某绝非同
2023年5月30日,中曼石油发生1笔大宗交易,总成交413 37万股,成交金额6568 45万元,成交价15 89元,折价5 42%。
5月29日上午,神舟十六号载人飞行任务新闻发布会在酒泉卫星发射中心举行。中国载人航天工程办公室副主任林
为了畅通家长的诉求渠道,倾听家长心声,促进家长与学校的良好沟通,2023年3月,湖南省岳阳市东方红小学家
随着巴黎圣日耳曼提前一轮锁定法甲冠军,关于梅西下赛季去哪里的讨论热度,也已经来到顶峰。回巴萨是永恒的
钦州市农业农村局行政处罚信息公示(2023年5月29日)序号行政相对人类别法定代表人姓名决定书文号处罚事由
微软重新成了最时髦的科技公司。全文共3135字,阅读大约需要8分钟作者|贾阳OpenAI让微软一下子成为了世界上
今天小编宋丹来为大家解答以上的问题。常州恐龙园内的酒店,常州恐龙园附近有什么好酒店相信很多小伙伴还不
2023年5月29日,吕某某(男,30岁)在成都大熊猫繁育研究基地参观时,向大熊猫1号别墅室外活动场内一大熊猫
来为大家解答以上问题,搜狗云最新版下载,搜狗云很多人还不知道,现在让我们一起来看看吧!1、搜狗输入法
想必现在有很多小伙伴对于海洋的洋洋的音序方面的知识都比较想要了解,那么今天小好小编就为大家收集了一些
音频解说一、湖北省恩施州天气预报1、恩施州气象台2023年05月30日15时52分发布暴雨橙色预警信号。2、预计未来3小
在无人机袭击后被疏散的居民目前已经开始陆续返回家中。同时索比亚宁下令要求相关部门尽快修复受损建筑。
来为大家解答以上问题,在淘宝网上怎么买东西付款,在淘宝网上怎么买东西很多人还不知道,现在让我们一起来
禾下乘凉梦,一梦逐一生。他是用毕生努力发展杂交水稻的追梦人;他躬耕田野,脚踏实地把科技论文写在祖