解码数字化转型之 —— 数据资产管理,数字化企业发展根基

2023-05-06 15:59:04

01 什么是ChatGPT

最近以ChatGPT为代表的大语言模型非常火,从IT行业到日常生活他几乎无处不在,无所不能。关于他的各种传说也有很多,替代程序员生成代码、替代画家生成图像、替代UP主生成视频、甚至有了自主的感情等等,几乎已经成了神话。究竟他有没有那么厉害呢? 我们的程序员带着好奇的心态,试着与其进行了互动,得出了以下结论:

① 与原有技术相比有什么优势?

与比较有代表性的google的bert相比技术路线不一样的是,CHATGPT会根据给定的文本上下文生成有意义的文本,并且能够产生连贯的、达到人类水平的自然流畅的文本。而bert则主要用于自然语言理解任务,如问题回答、文本分类、句子关系分析等,它可以理解文本中的语义和关系,并能够找出语句之间的联系,然后变成连贯的文本所以会比较生硬。这也是chatgpt让我们的感觉创造力强原因,因为他能够根据关系自动补全生成答案的而不是挑选更匹配的结果。

② 与人类的区别?

我们在与其他人对话时表达的只是很少一部分内容,比如我问ChatGPT今天中午要吃点什么的时候,他会告诉我可以参考当地的美食APP,但我问我身边的同事的时候他会根据我的口味,天气,地点,午休时间长短等信息给出我一个答案。而这也是问题的完整性决定的。另外就是当介入了地方语言,其所有语言模型就崩溃了。举例一个东北话里“整”字的例子,“今天中午‘整’点土豆”和“你一会把土豆给‘整’下”,这两句中的“整”字意义完全是不同的,而这也是语义模型的难点。

③ ChatGPT与搜索引擎的区别?

ChatGPT提升了搜索效率,提供了更好的交互进而帮助搜索,至于后续辨别搜索结果的正确性,以及根据具体需求修正,还是需要人类自己。比如我们问他“ITSS是什么”,他给出的答案会有很多种,包括:信息技术服务标准、智能交通服务系统等,这里就需要人为进行判断了。所以ChatGPT可以替代一些初级工作,但其实那些初级工作在搜索引擎的时代就已经被替代了。就好像我们对比ChatGPT提供的代码和百度搜索的代码对于需求实现提升的效果,效率其实是一样的。

 

02 我们需要怎么做

看完了国外的模型,如果我们自己想做一个大语言模型的话,需要做好哪些准备呢?

  • 大量的算法工程师积累的模型算法作为技术准备。
  • 足够的算力资源。
  • 对于未知结果的长期大量投入的决心,以及团队能否长期坚持的考验。
  • 足够的高质量数据。

前两点有足够的的资金基本都可以搞定,第三点则是软性指标,考验的是企业家和技术人员的决心,个人和团队在一个结果不确定的事情上长期付出是很难的。

最后一点也是最重要的一项就是数据,需要长期积累的高质量数据,才能帮助企业实现自研模型的目标。以目前国内企业和国内互联网的数据量和质量而言,即使相同技术可能也很难达到ChatGPT的效果,国内比较成熟的模型仍只能在几个领域的场景里实现,究其主要原因还是数据的质和量的不足。所以当前环境下做好“数据资产”管理才是当务之急,有足够的数据和语料,搞清楚数据的质量、类型,才能为不确定的结果增加确定性。

 

03 如何积累高质量的数据?

要积累高质量的数据就要明确数据资产是什么。根据由朱扬勇教授和叶雅珍博士撰写的《数据资产》中对其释义为:数据资产指由个人或企业拥有或者控制的、能够为企业带来未来经济利益的、以物理或电子的方式记录的数据资源。在企业生产中,并不是所有的数据都算数据资产,只有那些能够为企业产生价值的数据资源才能被称为“数据资产”。

和实体资产一样,企业拥有或者控制数据资产是需要付出成本的,而作为企业的资产都是要为企业创造价值的。同时和其它资产不同的是,数据资产还有非实体性、可加工性、多样性、依托性、价值易变性,多次衍生性、可共享性和零成本复制性等特点。

管理好企业无形的数据资产,能够让企业对持有数据的范围、价值、能力等做到心里有数,在未来想做语言模型分析的时候了解自身语料的储备情况,同时可在现阶段助力成本管控、效率提升、进而成功实现企业的数字化转型。

总之数据的积累和数据资产的管理不是一蹴而就的事情,提前做好数据管理资产管理为企业的可以为企业向现代化企业转型做好储备,若真要等到需要落地的场景时再做,可能就输在起跑线上了

 

04 如何做好数据管理?

知道了数据资产的重要性,让我们看看该如何做好数据资产管理。明易达经过多年数据资产管理平台建设经验沉淀的方法论,推出的自研产品(DSCM-DAM),能够帮助企业实现全生命周期的资产管理体系建设。

明易达数据资产管理解决方案,以管理+工具的方式,在数据平台建设的不同时期对数据规划、治理、应用、运营领域进行管理规范设计和工具落地。

▶前期:平台建设设计阶段,以用户业务目标为核心对平台整体发展规划,数据管理组织体系设计、数据标准和质量管理的流程和制度进行定制并发布。达到建设目标和管理过程的统一认知。

▶中期:数据平台建设阶段,制定各类设计开发规范并建设数据标准、元数据管理、数据质量管理、生命周期过程控制的管理能能力。保证数据模型设计开发过程的可控和各类数据治理工作的线上化标准化。借助可是化数据管理工具实现现有场景的分析及挖掘。

▶后期:数据平台运行阶段,制定并落实数据运营管理、权益管理、计费结算管理办法,使数据的全生命周期可控、可视,有明确数据的责任人和受益人并量化数据价值。根据运行情况对数据管控体系、元数据、数据健康和数据全景进行持续评估分析和优化调整。建设数据安全体系在保证数据安全的情况下提供数据服务。建设运营团队对数据的服务、客户、订购进行管理并持续对运营和商务情况进行分析,实时评估数据资产价值进行评估并根据评估结果调整相关内容实现数据的持续发展和优化,交付给一个可用、会用、可发展的数据平台。

 

世界正在进行着一场由数据引领的深刻变革。未来,数据和AI将贯穿于企业的各个方面,从业务模式、运营管理,到人才培养,是影响企业生存和发展的关键要素之一 。企业需要在组织与流程上进行转型,建立面向数据和AI的能力体系。只有这样,才能在数字化时代占据竞争优势,实现长期发展。