免责和版权声明:
本文的历史价格,事件,时间等未必准确。本文的图表数据仅用于静安笔记个人科研。静安笔记不对您的任何投资行径负责。每篇文案即使大致正确亦只能涵盖一个方向或行业,不表率符合您的投资情景。欢迎完整转载;单独运用本文图表数据请事先征得自己同意,并注明出处。
1. 静安笔记的学术背景
1996年北京的秋天美轮美奂。我从南方考到北京交通大学信息所读硕士,师从当时的所长袁老师。
信息所聚焦学术科研:主动视觉,设备人,语音处理,自然语言学习是几个重点科研行业。所里博士,博士后亦一大堆。袁老师百忙中和咱们见面,问我线性代数学的怎么样(我说不错),把矩阵论自己补一补,别急着“进实验室上机”。【1】
当时人工智能的学术气氛很浓,1997年LSTM亦已然发明了【2】。都数硕士朋友还是热衷于更"HOT"的通信(ATM,以太网)和互联网计算机应用软件热潮。很少有人能用神经网络处理现实问题,并且挣钱。人工智能还不是一个公众词汇,我亦和人工智能擦肩而过。【3】
我记得我就曾花费海量时间在学校和首都图书馆查阅三维电磁模型定位癫痫病灶算法,帮紫竹院周边一家民营医疗器械机构做开发。(质量欠好,有时候会把病灶定位在脑外)。
当时的高等教育一个是类似于“证书”或某种“信号”功能,便是你在某某大学硕士毕业能够找份每月发薪水的按部就班的工作。像咱们学校毕业想留北京通常都能有北京户口。还有一个便是当时的互联网和网上教育学术资源还无此刻这么发达,高校还主导或垄断有些学术和行业知识技能,无论是师资还是硬件环境,例如设备,图书等等。此刻的高等教育已然走向了新时代的分岔口,再也不主导或垄断学习资源。Bryan Caplan这般问道:“Would you rather have a Princeton diploma without a Princeton
education, or a Princeton education without a Princeton diploma? If you
pause to answer, you must think signaling is pretty important.”
十年后的大学亦许与今天非常区别。
好吧,回到主题。没想到毕业20年,线性代数,矩阵论穿着人工智能的华贵商场套装,和国家战略契合到一块。
2. 上市机构业绩暴雷财务一瞥
花开两朵,各表一枝。2018年中国A股股市的一大热点便是“业绩暴雷”。上市机构在业务顺利和牛市时粉饰财务报表,在特定情景和时点一次性减记或冲销巨额财产“重新起始”。这些机构有的走在了违法边缘或是已然违法,有的过度运用会计政策的空间迎合市场爱好(例如对成长的追求等等),最后业绩大变脸巨额一次亏个够。
康得新曾经是一个明星上市机构企业。成长性和股价连续报答令人艳羡。我记得当年还曾浏览过这家机构的财报,无奈缺乏起码的行业知识放弃了。2018年康得新已然ST了。当年浓眉大眼的家伙怎么和丑闻和业绩洗澡纠缠在一块了!?
媒介热榜,康得新账上巨额现金,然则有息负债率亦相当高。倘若无其他猫腻,巨额现金和巨额负债只能是一个科研的线索。例如苹果机构现金非常多,然则正在增多有息负债回购股份等等。巴菲特在股东的信里谈到苹果的目的是达到“现金中性”,亦便是扣除必要营运资本考量后的净现金为0。
康得新到底怎么啦!?静安笔记经过Python编程汇总了康得新2012年~2017年财务数据:【4】
上表能够看出,康得新连续数年高成长的背面,应收账款超出比例的增长,ROE的显著波动都是警示信号。
由此静安笔记想到,能否应用时下伟大的人工智能技术,经过对上市机构的历史财务数据进行设备学习,大数据预警业绩暴雷或个别上市机构反常的财务数据呢!?
毕业于北京交通大学信息所这般前沿人工智能学术科研公司的老程序员静安笔记给出的答案是正面的,鼓舞人心的。
3. 人工智能之设备学习
设备学习便是经过构建数据模型来“理解”数据。一般模型有非常多可调参数。学习的过程便是参数适配的过程。狭义看,日前人工智能重点指的是深度学习【5】,例如卷积神经网络(CNN)和循环神经网络(RNN)。而设备学习的范畴更宽泛有些。
静安笔记按照上市机构历史财务数据财务特征,亦思虑到数据量比较有限,首要尝试传统的随机森林(random forest)和群集(clustering)设备学习办法检测财务数据反常的上市机构(候选列表)。鉴于上市机构财务数据的时间序列特性,续篇会给出基于循环神经网络的Long Short Term Memory RNN深度学习办法的尝试。
随机森林简单的讲便是一组决策树(森林)经过随机因子整合最后决策模型。随机森林设备学习算法属于无监督学习(unsupervised learning),应用起来简单直接,针对财务信息这些非海量数据训练学习效率很高,况且避免了过度拟合(over fitting)。随机森林应用于反常检测(anomaly detection)已然非常成熟,例如运用类似设备学习算法:
金融行业,发掘信用卡作坏处
医药行业,按照病人就诊和用药记录探索病人重点疾患
电子商务,给消费者举荐关联制品或服务
部分静安笔记读者对编程代码很感兴趣,这儿给出重点package,您只要简单搜索就能查看非常完备的sklean package运用办法和实例:
做为输入数据的财务信息整理亦非常简单,经过聚宽得到所有上市机构重点财务数据序列(参考本文康得新财务数据图),经过简单预处理(scaler)就可进行训练(training):
最后一步按照给定的阈值给出反常数据,亦便是关联上市机构。
随机森林讨论:值得肯定的是sklearn很容易上手,倘若能够把基本数据整理好,随机森林设备学习算法总是能够给出有些貌似不错的输出。比较耗时的除了整理数据,还要尝试区别关联性的输入训练数据(本算法和聚类算法反常数据是其中的一部分)。初步结论还是以行业上市机构为输入,合情恰当,结果似乎亦不错:
训练数据:证监会数据“橡胶和塑料制品业”, 2010~2017年报关联几类简单加总计算的财务数据
IsolationForest财务反常上市机构输出【6】:珠海中富, 华塑控股, ST康得新, 天铁股份
针对设备学习尤其是深度学习,怎样判断给出的结果是“正确”的,是一个挺大的行业。针对随机森林IsolationForest,能够运用sklearn.metrics.confusion_matrix进行评估。
下篇给出有些学界评估门类参考。本文只是抛砖举荐一个思路。除了参考confusion matrix,亦能够用常规办法对反常数据和反常上市机构进行进一步分析,应用不存在致命缺陷。
聚类设备学习(Clustering)办法稍微繁杂一点,属于无监督学习(unsupervised learning),亦可用于发掘反常。本例(行业历史财务数据做为训练输入,见上面讨论)中聚类设备学习办法似乎针对输入信息比较挑剔,结果相对输入变化亦比很强。
下图分别是归类结果和聚类学习反常检出。重视聚类学习结果直观上看并不完美表现“凸性”约束,有些行业做为训练数据“凸性”更差。
ClusteringForest财务反常上市机构输出【6】
:每次输出区别,珠海中富 或 ‘ST康得新’
下次咱们简单讨论一下运用循环神经网络LSTM做一样的事。
咱们能够提前给出总结和意见说:
基于历史财务信息的设备学习(包含深度学习)用于检测监测上市机构财务数据反常有知道的益处,进一步科研恰当的训练数据以及对设备学习办法输出统一评估。
基于历史财务信息的设备学习(包含深度学习)能够用于投资者初步否决有些投资决策【7】
基于历史财务信息的设备学习(包含深度学习)亦能够用于监管当局(请大胆举荐给证监会和易会满主席!带上我)大数据监控分析。
基于历史财务信息的设备学习(包含深度学习)能够做为对冲基金等初筛做空目的的一个工具。
倘若读者伴侣相对自己手中的持仓股票“人工智能”考察一把,不妨留言试试(不保证回复时间,不必定有用,just have fun!)。
各位伴侣看完后请点右下角“好看”,谢谢鼓励!
【1】我还是要了一台SGI工作站上机时间。一位学俄语的博士亦常用这台设备。博士学了一年英语,竟然考GRE拿了全奖美国高校博士录取。
【2】https://www.bioinf.jku.at/publications/older/2604.pdf
【3】我的毕业论文是《小波变换应用于图像在互联网的渐进网络传输》(大意)。
【4】数据源自聚宽。
【5】“Its deep if it has more than one stage of non-linear feature transformation" - 2015, LeCun
【6】"反常“并不表率财务造假,请放在全文环境下小心看待。
【7】invert, always invert! 初步否决的道理在于更加警觉关注反常财务机构。
GDP,M2,社融,利率和A股股市(个别照片可能导致轻度不适)
七年之样:上证50,中证500指数价值和收益分析(深度好文)
A股市场14年来行业特征和价值一窥 (深度好文)
用数据述话:小议A股市场的整体投资价值【长且重要】
|