交通大语言模型的训练、迭代方法论以及发展阶段论 - 人物访谈 - 智慧交通网 ITS114.COM|领先的智能交通门户网站
  • 交通大语言模型的训练、迭代方法论以及发展阶段论

    2023-08-09 11:26:35 来源:www.ladysslipper.com 评论:
    分享到:

    人工智能大模型的热度其实已经略有衰退,任何一个技术的发展曲线,其关注度,都会有一个从最初突破的顶点,逐步回归到寻求落地、商用的阶段,社会关注度会逐步下降,直到下一个突破,或者润物无声,融入到社会经济、生活之中。任何技术都需要落地应用,那么大模型如何在交通行业落地?

    目前,国内交通大模型多还处于研发、适用性开发、试点阶段,已经正式面世的大模型,还凤毛麟角,这是因为技术与行业的结合需要时间,尤其是找到合适的场景、细分领域,并为此进行适用性开发,更显艰难。还是那句话,国内可能了解、能开发AI大模型的人已经比较多了,但同时理解交通场景需求和AI大模型的应该仍是屈指可数。

    佳都科技集团股份有限公司(以下简称佳都科技)作为国内极少数已经发布了交通大模型的智能交通企业之一,其副总裁兼中央研究院执行院长周志文,在接受ITS114书面采访后,对AI大模型在交通领域的应用做了较为详细的论述,包括是否可以做到“多个城市或单位同时训练同一个大语言模型”、集成商如何提升交通大语言模型的应用水平、交通大语言模型的发展路径、阶段等。

    周院长介绍到,在大模型自身层面,佳都在通用基座大模型的基础上进行了交通行业文本的无监督预训练、行业交互数据的指令微调、人类反馈数据的价值观对齐,最终实现了首个城市交通行业大模型。在应用层面,佳都围绕大模型建立了一套软件系统,包括大模型调用平台搭建、大模型行业工具库、行业知识向量库等,因此在召开发布会时,可以真机演示人-大模型-业务系统三方协同作战解决交通问题的应用效果。

    对于佳都科技率先发布交通大模型,可能行业内大多数人还是持观望态度,也都想看看这个大模型到底能做什么,智能化程度到了什么地步,可能也想了解下佳都科技是以什么样的理念和架构来研发交通大模型的,所以,今天的推文,希望能给同仁们不一样的收获。

    640.png

    如何理解大语言模型及其交通场景的应用


    大模型对于很多人而言,还是一个不太熟悉科技名词,大多数人也只能从各种试用版本来体验大语言模型的“神奇”,部分专业人员也可以尝试使用图片生成大模型,但对于大视觉模型、多模态大模型等其他大模型,基本上都没接触过。而能够最快落地到应用场景的,目前看来也主要是大语言模型。那么我们应该如何理解大语言模型,以及大语言模型在交通领域的主要应用场景?

    周院长表示,大语言模型是一种主要基于深度学习和自然语言处理(NLP)技术的人工智能技术。这些模型的设计旨在理解和生成自然语言,就像人类一样。

    大语言模型是以大量的文本数据训练的,通过对数据的学习,模型可以捕捉语言的各种规则和模式,如语法、句式、习语和一些语境相关的知识。"大"在"大语言模型"中,主要是指模型的规模和复杂性。大语言模型有数十亿甚至更多的参数,它们需要大量的计算资源和数据来训练。这种规模的模型可以更好地理解和生成复杂的语言结构,因为它们可以学习到大量的细微语言特征和语境信息。

    进一步来说,对于大语言模型的理解,可以从几个方面来思考:

    学习能力:大语言模型通过学习大量的文本数据,理解语言的各种规则、模式和上下文。从而可以回答问题、写作、翻译语言、生成创新的思想等。

    生成性:大语言模型不仅可以理解输入的文本,还可以生成新的文本。这种生成能力可以用于各种任务,如写作、对话生成、文本摘要等。

    通用性:许多大语言模型,如GPT-4,被设计为"通用"的模型,意味着它们可以在各种不同的任务和语言上进行训练和使用。这种模型的优势在于,一旦训练完成,可以在多个任务和领域中应用,无需针对每个特定任务进行单独的训练。

    局限性:虽然大语言模型的表现令人印象深刻,但它们也有局限性。例如,这些模型对训练数据中的偏见和误导性信息很敏感,可能会生成不准确或有偏见的输出。此外,它们并不真正"理解"语言,而是通过统计规律生成预测。

    大语言模型在城市交通领域的主要应用场景包含便民客服、行业监管智能助理、道路通行情况分析、应急事件的指挥调度。通过大语言模型超强的对语义意图理解能力、上下文学习能力和多轮对话能力,实现对话式搜索和知识查询。通过对行业知识的训练,根据模版和文件材料生成内容,具备专家助理的角色。对行业案例不断的训练,基于思维链的复杂逻辑推理能力,对交通行业的业务问题形成方案推荐建议或根据需求描述修改方案。

    为什么大语言模型能在这些场景中应用?

    周院长认为,这是因为大语言模型具有对语义意图的理解能力、上下文学习的能力和多轮对话能力,内容生成能力,以及基于思维链的复杂逻辑推理能力。

    比如,大模型+智能客服,可对提出的问题精准挖掘意图,支持多模态输入,通过调用工具和上下文关联,多轮对话,对话问答精准生成,让人的体验得到极大的提升。此外,利用行业知识案例库,行业大模型可在一定程度上成为业务专家助手,实现专业知识的问询和报告一键生成。

    那这些场景对于人工智能的需求,是否强烈?用户是否愿意为此付费?

    周院长表示,有痛点就会有需求,大语言模型能够帮助用户处理繁琐的文件,编写报告,尤其在事件处置时,面对复杂的因素需要在短时间内给出决策时,单一的专家经验,烟囱式的独立系统,让决策的准确性大打折扣,而行业大模型的出现能够很好的补齐这一短板,在快速精准给出推荐建议后,专家只需做出审核,可以更好的应用于业务问题的处理。因此,随着行业大模型对业务知识的不断训练和准确性提升,用户肯定是愿意为此买单的。

    智能交通企业与大模型应用

    交通行业向来是各种先进技术应用的重要领域,从智能视频、云计算、大数据、北斗卫星、激光雷达、先进半导体等到车路协同、自动驾驶、新能源,都是如此,而智能交通企业也向来是推动这些新技术落地应用的主力,大模型应该也不例外,再好的工具,也需要工匠来打磨,以适用于不同的使用人和适用场景。

    现在推出了大模型的机构有很多,即便将国外大模型排除在外,仍可称之为“百模大战”,独立研发向来不是ITS集成商的长处,那么智能交通企业如何选择大语言模型合作伙伴?

    周院长表示,选择哪种类型的大语言模型企业合作,或者选择自主研发,这完全取决于智能交通集成商的具体需求、资源和战略。合作机构各有优势:科研机构在人工智能和大语言模型领域的具备最新的研究成果和深厚的理论基础;互联网企业开发了许多先进的工具和框架,已经具有成型的产品和应用;专业软件企业可能已经专门为大语言模型开发了优化的解决方案。

    既然上游可选项很多,那智能交通企业在交通大语言模型的应用进程中,可以和应该扮演的角色是什么?

    周院长的回答比较具体,他表示智能交通企业在交通大语言模型的应用进程中可以提供算力支持、训练推理服务、行业大模型、行业应用产品以及技术支持,更好的服务于交通领域。他表示,佳都科技在交通行业深耕几十年,有着丰富的行业知识和业务理解。并且,佳都的研发团队、研发积累和硬件资源,可以采用自研方式,进行行业大模型技术和产品的研发。佳都科技已经正式发布的知行行业大模型采用的混合多模架构,支持与各类AI模型广泛地合作,共同推动智能交通的发展。

    ITS集成商如何提升交通大语言模型的应用水平?

    优秀的工匠,就是拉通工具和场景之间的桥梁,周院长认为,作为集成商,提升交通大语言模型的应用水平可以从以下几个方面来考虑:

    一是洞察业务需求:深入理解交通行业的需求和挑战。这可以通过与交通行业的专家和业务人员进行紧密合作,理解他们的工作流程,挖掘可以应用大语言模型的潜在场景,如路况信息生成、交通事故报告自动化写作、交通预测等。

    二是定制模型训练:针对交通行业的特定需求,定制训练大语言模型。这可能需要收集和利用大量的交通相关数据,进行有针对性的训练,以提升模型在交通领域的性能和准确度。

    三是模型优化和调整:持续优化和调整模型。这可能涉及不断地试验、测试和调整模型的参数,以达到最佳的性能。

    四是保障数据安全和隐私:采取严格的数据管理和保护措施,确保在模型训练和应用过程中数据的安全和隐私。这可能涉及使用数据匿名化、差分隐私、联邦学习等技术。

    五是持续学习和改进:保持对最新的人工智能和机器学习研究和技术的关注,以便将新的技术和方法应用到模型的训练和优化中。

    六是提供良好的用户体验:除了技术层面,还需要考虑如何提供良好的用户体验。这可能涉及设计易于使用的用户界面,提供详细的用户指南和技术支持等。

    通过以上的方式,集成商可以提升交通大语言模型的应用水平,从而为交通行业提供更加智能和高效的解决方案。

    但很显然,这对ITS集成商的要求很高,不仅自身具备技术开发能力,资金实力,也需要长期的投入,同时还要为技术寻找良好的落地场景和落地合作伙伴,只有精准理解交通业务,用户的需求,才有可能准确把握行业大模型训练的方向,才能将行业大模型与交通业务充分结合起来,最大化的发挥其价值。

    ITS11认为,集成商还有一个很重要的任务,那就是找到愿意为此买单的用户,而这都考验着集成商领导的战略眼光和决策定力。

    交通大语言模型的训练、迭代方法论

    有了路径,选择方式方法也就显得更为重要。对于智能交通企业而言,交通大语言模型训练过程中的数据涉密、数据安全问题是个必须要解决的问题,而且基于成本和时间考虑,能否实现多个城市、单位同时训练、迭代同一个大语言模型,也非常重要。

    佳都科技是如何看待这个问题?

    周院长表示,其实这不用担心,大数据技术发展至今,已经有了很成熟的解决方案,这些技术包括数据加密脱敏、数据匿名化、差分隐私、联邦学习等技术。

    对于是否可以多个城市或单位同时训练同一个大语言模型,答案是肯定的,比如可以使用联邦学习技术。各个城市或单位可以在本地使用自己的数据进行模型训练,然后将模型的更新发送到中心服务器进行整合。这种方法可以实现模型的实时迭代和智能化升级,而不需要直接共享或交换数据。

    那么交通语言大模型理想化的训练、迭代模式应该是怎样?

    周院长介绍到,理想化的训练、迭代模式可能涉及以下步骤:

    首先是数据收集与预处理:每个单位收集并预处理自己的数据。这可能涉及数据清洗、匿名化等步骤,以确保数据的质量和隐私。

    其二要有本地模型训练:每个单位使用自己的数据在本地训练模型。这可能涉及选择适当的模型架构、优化算法等。

    其三实现模型更新共享:每个单位将自己的模型更新(如权重的改变)发送到中心服务器。这可以通过安全的通信协议来完成,以保护数据的安全。

    其四实现中心服务器整合:中心服务器接收所有的模型更新,然后整合这些更新来改进全局模型。

    最后是模型分发:改进后的全局模型被发送回每个单位,以供它们在本地使用。

    方法在这里,但是推进过程中,肯定有面临一些具体的问题,佳都科技是如何解决的?

    周院长强调:交通大语言模型的落地应用可能会面临一些挑战和问题:

    其一,数据隐私和安全:训练大语言模型需要大量的数据,这可能包括敏感的交通信息。保护这些数据的安全和隐私是至关重要的。解决这个问题可能需要采用数据匿名化、差分隐私、联邦学习等技术,以确保数据在收集、存储和使用过程中的安全和隐私。

    其二,模型的可解释性:大语言模型往往被视为“黑箱”,其决策过程难以解释。这在一些关键的交通应用中可能会带来问题,例如自动驾驶系统。解决这个问题可能需要发展和应用更多的模型可解释性技术,以帮助理解模型的决策过程。

    其三,数据质量和可用性:高质量的数据是训练大语言模型的关键。然而,在实际应用中,获取到的数据可能存在各种问题,如不准确、不完整、有偏见等。解决这个问题可能需要进行详细的数据清理和预处理,以提高数据的质量。

    其四,模型的性能和准确度:大语言模型需要在实际应用中提供高性能和准确度。这可能需要进行持续的模型优化和调整,以满足实际应用的需求。

    周院长表示,要解决这些问题的时间表可能会因具体情况而异。一些问题(如数据隐私和安全)可能需要在模型训练的早期阶段就得到解决,而其他问题(如模型的性能和准确度)可能需要在整个模型的生命周期中不断地进行优化和调整。总的来说,解决这些问题需要的是持续的努力,而不是一次性的解决。

    交通大语言模型的未来与应用阶段

    现在来看,交通语言大模型的未来和人工智能一样,前途光明,前景无限,因为整个人类社会的运转是向无人化操作方向发展,但就像我们前文所说的一样,每个技术都会遵循自己的发展曲线,如果落地应用不如预期,那么这一技术将会被雪藏起来,等待下一个突破。大模型在一定程度上突破了人工智能此前的发展困境,但离真正的“智能”还有很距离。在交通领域,大模型也需要证明自己。

    周志文强调,交通大语言模型会大幅度提升数据分析效率,释放所有人的潜力。让交通行业每一个人,无论是管理者,或基层管理人员都可以拥有一个AI知行助手去查找、推荐各类数据指标,用户可以基于相应的指标进行层层深入分析和探查,例如:可以用一句话来快速创建仪表盘。

    同时,交通大模型可以赋能运营释放管理的潜力。有了AI知行助手,交通的管理者、运营者、维护方都可以快捷地获取到客观的、真实物理世界的数据和报告,从而快速客观地给出整体的进展分析,同时还可以针对高风险的目标进行分析。

    交通大语言模型也会像大数据技术一样成为一个普惠性的工具,尤其在基层员工的写报告,市民的咨询答疑,交通部门的规划设计,交通拥堵或安全方面的预测等等将会得到广泛的应用。

    对于交通大语言模型的应用路径和阶段,周院长是这样判断的:

    第一个阶段:知识注入阶段。在这个阶段,智能交通行业将会把人类掌握的丰富知识注入到大模型中。这些知识涵盖了从交通规则、道路设计、交通流理论到交通安全等方方面面的内容。行业知识、专家经验和私域知识将成为这个阶段的基础养料。大模型将会从各个领域的行业知识中吸取养分,从而建立起一个全面且准确的交通知识库。这个知识库将为后续阶段的发展奠定坚实的基础。