顶部横幅广告
  • 微信
您当前的位置:首页 > 资讯

南方大数据团队年终总结篇——IT技术在不良资产

作者:三青 时间:2023-05-29 阅读数:人阅读

 

前言

2020/1/3

    今天是2020年1月3日,这是继我们年终总结篇思想汇报篇的第二篇,主题是“我们在不良资产行业如何使用IT技术工作”。

如果你是不良资产的从业人员,可以忽略正文,我们已经为你准备了一个小视频,能让你在四分钟内就了解到我们在这几个月内做了什么。

    如果你是互联网的从业人员,正文中我们分享了不良资产行业中使用到的技术框架和语言,干货满满。

这就是视频中的二维码

前一篇我们提到了互联网人在进入这个行业时,拥有业务思维是必不可少的一个条件。当然,在张总用业务思想武装我们大脑时,我们也不会丢掉自己的老本行。我们这7个月一直在使用我们IT技术的能力去开发各种工具来让我们在不良资产行业能更有效率地工作。所以,我将我们这7个月的技术开发过程做个总结发布出来,如果你也是一支互联网队伍,也想和我们一样进入不良资产行业,希望能给你有些参考和借鉴。

我们在IT技术应用于不良资产行业的思维是:IT首先是提升效率(工具),其后才是整合资源(系统),最后才是商业交易(平台)。(温馨提示:以下的内容涉及大量的互联网技术专用名词,对于非互联网IT从业者阅读会有一定难度。除了视频各位也可以跳到文章最后的【将来】部分阅读我们认为2020年IT技术会如何在不良资产行业爆发。)

以下是2019年5月份到2019年12月份我们IT技术如何应用于不良资产行业的过程记录:

五月份

从5月份进入不良资产行业开始,我们就推出第一个成果,“批量生成尽调报告的小工具”。当时我们制作的是华融尽调报告格式的变种版本(南方资管版本)。第一个版本为了能够尽快的结合业务现况,快速实现该功能,我们技术采用了Python Requests 以及Google Chromedriver,在五大司法拍卖网站上,实现了对相关网站的数据收集,再使用著名的Pandas数据分析框架对收集回来的数据进行初步分析,数据聚合,导出数据表格。

每条数据包含拍卖标的物的基础信息和深层信息,基础信息涵盖:标的物地址、坐标、拍卖次数、每次起拍价和评估价的对比、与上次拍卖起拍价的折扣对比、拍卖结束状态、成交状态、处置法院。深层信息包括有:拍卖标的物的执行案号、执行依据文号、拍卖标的物产权人为非自然人的信息、处置法院、拍卖物地址。通过标的物地址,我们再次通过Requests搜索方式聚合得到楼盘名,所在板块,楼盘价格。以及根据每条数据生成基础尽调报告,速度大概是1分钟生成125份左右,和人工相比的话,这一分钟的成果相当于一个尽调专员3天完成的工作量。

这种效率提升带来的成果就是通过我们自动化程序把所有的法拍房的尽调都做完了。同时我们在5月份采用了Vue, Nodejs, Npm, Webpack, Cube-ui完成对税费测算小程序,这是极大的解放了操作员的双手,更解放了我们的大脑。我们才有时间可以在机器自动生成报告的过程中还能坐在看张总写板书教我们不良资产行业的干货知识。

六月份

在6月份的时候,我们结合了在老大所学到的知识以及对业界数据结构的理解,我们开始了一个构建数据库的工作。

对于“数据库”我们是这样看待的,重要的不是数据库的数据数量,而是数据提取和计算逻辑,所以我们建立数据库的唯一目的是学习如何从数据中提取出关键信息而推动工作进行下一步,而下下一步需要什么关键信息,我们再抽取出来,再推动工作进行更下一步。

然后我们开始像被全国所有债务人都欠钱的债主,在各个债权流转网站、文书网站、工商信息网站、拍卖网站……用了Navicat 做了数据库关系图谱,初步理清了数据之间的关系,持之以恒的分析每一份文书、每一份债权流转公告,每一个公司组织关系,试图找出所有还没被不良资产行业抓到的债务人。

为了提升效率以及准确率,我们采用了python 著名的数据采集框架Scrapy 以及秒并(在普通机器的性能中能够每秒插入1万条数据)插入数据达到1万条数据的Mongodb 作为数据收集数据库。Redis 作为缓存以及Scrapy Broker保证数据采集的高效稳定性。

七月份

到了7月份, 老大已经不停歇的教导了我们不良资产知识三个月,我们也见识了南方资管旗下管理的资产包。这个时候我们对张总吹牛逼,说我们已经对资产包从尽调到处置的全套过程逻辑有了一个清晰的认知,我们要开发一个资产包管理系统来管理这些资产包。

于是,一个具有资产包档案录入管理,自动尽调,实时跟踪逻辑的系统在7月份正式立项了; 我们用Sketch绘画出产品原型图,为了让技术人员更好的分工合作技术端采用了SPA(single page application)前后端分离形式,同时也为了让后面的技术手段更加恰合,我们继续采用了Python以及Nodejs 作为后端的主要语言。前端技术采用了通用的Vue,Nodejs,Npm,Webpack,Element UI构建操作台的架构。后端则是使用了Python异步处理, 以及Nameko微服务框架, RabbitMQ消息队列, 数据库采用了PostgreSQL,Redis缓存,Nginx负债均衡。

八月份

终于在8月底的时候我们有了第一个Beta版本,我们使用了jszip,xlsx,docxtemplater,jspdf把资产包导入档案系统,同时批量导出尽调报告。

九月份

9月来了,我们数据库的种类以及数据量也越来越多,所以我们就尝试搭建一个操作界面(前端)来输出这些数据成果和提供操作功能。同时决定本地建立机房将云端的数据都迁回本地机房。

于是,技术人员的工作不止是写档案系统,更多的是跟机器以及现实网络打交道。本地开始有了防火墙,有了网络专线,有了机架式服务器。程序服务采用了最难搞定,也是最前沿的Kubernetes,部署了Mongodb, PostgreSQL, 一切关于系统架构的软件服务. 他在最短的时间内做到扩容, 容灾备灾, 无间断服务部署, 确保了系统中各种服务的稳定性。

与此同时,我们为了确保服务的正常运作,加入了Sentry 作为错误日志回收机制,ELK 日志收集,Kibana 日志数据分析,协助我们处理系统错误以及获取工作人员如何使用该系统。

我们为了尽快利用起收集回来的数据,我们又加入了ElasticSearch 服务将所有数据导入可用库,加快尽调模块搜索结果。

赶着9月的尾巴,我们的南方资产尽调管理系统上线了,里面存放着南方资管的所有资产包数据,同时系统会持续不间断的引用我们持续在增加的尽调数据库监控资产包关键数据进行更新,我们的目的是让工作人员可以在一个系统界面上就完成工作了,不再需要去打开启信宝、裁判文书网、拍卖网、政府网站……随后几天也发布了移动端的资产包信息查询,债权信息查询,工商信息查询…..

十月份

我们在10月份的时候就开始思考了数据本身的价值,从债权信息、从拍卖信息、从法律文书中的信息。随后启动了数据挖掘(计算机科学),通过了一系列对数据的统计,分析处理,情报检索。

我们从10月份的工作中总结得出,是不是可以减少人力成本的介入,开始让机器学习介入,读取裁判文书中的相关信息,以往是需要通过人眼阅读后反应出来的结论. 现在是想要让机器告诉你相关的信息。

所以在华南理工人工智能的博士导师黄翰教授教导下, 学习了NLP框架思维(能让系统模拟人的思考逻辑去处理数据俗称AI, 人工智能),因此我们开始制作知识图谱来训练系统更好的模拟人处理不良资产数据的逻辑,学习人如何查阅资产包数据,如何归档分类资产包,如何抽取关键数据项来做尽调,如何跟踪资产包关键数据的更新。

我们还在不良资产行业知名宠物博主“地小北”的指导下,学习了如何制作外资投资机构的资产包估值报告。

十一月份

随即我们在11月开始将底层的NLP系统中衍生出语义分析系统,使用了PyTorch机器学习框架通过label, input, output, Transformer 执行了有监督的预训练模型库,对裁判文书进行预训练,经过漫长的通宵达旦,我们得到了初步的结果。我们可以把判决文书的的所有人物提取出来,上诉人, 被上诉人, 申请人, 委托代理人, 法官姓名, 书记员, 审判助理。

十二月份

12月,我们又开始挑战非文字类数据的信息提取和分析,我们从图片、扫描件等文件中,开始训练我们的OCR图像识别技术更好的将图片中的文字信息进行扫描和抽取出来做分析。

将来

就这样在不断的学习和开发中,我们来到了2020年,经过各位大佬们对我们长达7个月的密集实战训练,我们站在当下,对2020年IT技术如何在不良资产行业应用作出自己的预测:

1.不良资产行业的大数据应用将进入人工智能时代,此前大家对数据对应用操作方式是数据搜索,脑袋中有想法和想法需要验证,然后通过搜索框去搜索这个问题的数据来验证;而在2020年,机器将学习了人的办案逻辑,将逻辑转换成知识图谱来驱动系统自动去检索和运算数据,算出人潜意识想要的结果,也就是人还没问,机器就源源不断的输出结果给人,而经过人反复的对系统输出的结果打分的训练过程,机器最后将在越来越接近人的思维:——举个实际的例子:我们将某位法官的判决书全部收集起来,运用机器学习的算法能力,精准的模仿了这个法官判案的风格,思维逻辑对他还没判决的案子生成了一份判决书,法官自己看了都会怀疑自己什么时候写过这样一份判决书。

2.90后的IT团队将成为这个行业的技术中坚力量,他们30而立,对移动互联网有更深刻的认知和应用能力,他们将会投入全部技术能力,为了一个“动动手指,手机上成交几个亿小目标”的交易环境可行性为为之努力。有了这股力量,不良资产行业从业者可能更多是用手机处理业务而不是坐在电脑面前。

3.不良资产行业的电商交易生态圈将建立起来,在现在已经有的司法拍卖平台的基础上,互联网行业将更进一步推送各种互联网生态平台和服务到不良资产行业中,我们将欣喜的看到不良资产行业会出现跑腿的尽调服务,短视频内容制作服务,数据公证担保服务,甚至会出现众筹买不良资产的交易服务……,互联网这套产品转换成内容,再围绕内容催生周边服务,最用用中介担保交易的电商平台完成交易的打法,2020年后法规越来越完善的趋势下,一定会被推动在这个行业落地并爆发出巨大的能力。

4.数据公司将会有新的独角兽出来,不同与天眼查这类数据公司,不良资产行业的数据公司输出更多的是数据处理逻辑而不单是数据,这类数据公司具备从海量数据库里挖掘出有价值资产包的能力,然后他们还应用不良资产行业的业务处理逻辑驱动资产公司配合完成资产包的处置获取商业收益,这已经不是讨论数据是免费还是收费的问题,而是数据公司进来做大这行业蛋糕参与分配的新局面。

下集

END

预告

只有数据成果,没有业务的实践与落地,也是空谈。毕竟恰饭最重要,那我们是如何把互联网营销带入到这个行业,让不良资产交易有了新的活力的。扫描二维码,关注公众号,下一期我们讲《年终总结之营销篇》

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com

标签:
微信

三青

当你还撑不起你的梦想时,就要去奋斗。如果缘分安排我们相遇,请不要让她擦肩而过。我们一起奋斗!

微信
阿里云