国产91九色_日本68xxxx_欧美高清另类自拍视频在线看_欧美人禽_99久久婷婷国产综合精品青牛牛_亚洲射情

中國自動化學會專家咨詢工作委員會指定宣傳媒體
新聞詳情
gkongbbs

昆侖數據:工業大數據7大誤區

http://m.sharifulalam.com 2020-03-09 15:33 來源:文 | 首席數據科學家 田春華博士

    7個誤區,分三批,包括規劃層面,技術路線方面,以及執行層面,可能遇到的問題。

  言不及義:脫離業務邏輯的數據分析是浪費

  案例:曾和合作伙伴探索過空壓機的大數據分析。在涉及到工業設備的大數據分析應用中,有很多PHM(設備健康維護管理)的案例。

  但在跳到智能運維之前,最好先討論一下預期的業務邏輯,我們的目標是做第三方運維業務(大數據用來提高維修效率),還是通過空壓機的數據,來支撐一種新的業務模式,比如供應鏈金融、業務流程優化、能效優化等。

  首先剖析一下,先不考慮現實條件,假設技術是百分之百的成功,這個技術實現之后,到底能干嘛?

  一年的這種壓縮機,它的運維成本到底是多少?如果我是這個設備制造商,我做智能運維到底是來幫誰實現什么?我的收入或者我的成本來自于什么地方?

  如果智能運維的收入包括利潤率都非常低,整個產業鏈,整個行業都還沒有發力,不妨轉變業務邏輯,不要急于模仿一些看似別人在其他領域已經成熟的案例,先靈魂拷問自己的商業本質是否合理。

  指雁為羹:脫離約束條件的“烏托邦”很難成功

  案例:這類問題通常出現在一些調度優化、運籌優化層面,一講生產調度或者運籌優化,大家很容易的就想做全局優化,這是大家的夢想,只有全局優化才能有提升的空間。但是現實中,要具體問題具體分析,不能脫離物理世界的約束條件。

  例如,港口的集裝箱碼頭,其中一個很重要的問題就是碼頭的堆場優化。因為堆場決定容量,香港的碼頭是比較擁擠的,做對比優化的空間很大,效益也大,我們要分析船來了之后怎么快速的支持裝貨、卸貨。

  但是做堆場優化,業務范圍到底做多大?客戶希望做端到端的堆場優化,一個集裝箱來了,就要決定最優位置。這里忽略了,為了做堆場優化,

  首先要有比較明確的集裝箱的到達量預測,預測必須相對準確;

  第二,我要整個裝備的維修周期數據,要獲得排班數據,要獲得船期數據等各種關聯數據;

  第三,要避免場內卡車的擁堵,如果同一艘船的所有集裝箱都放在一起,裝船時候可能會造成局部擁堵。

  現實情況下你很難獲得這么全的數據,中間的約束很多,首先,流量預測就很難做的精準。第二,船的到達,按說有固定的周期,但是也有些天氣因素,有些如當前疫情因素是不完全可控的。在這種情況下,如果做優化,是基于大量的假設,效果可能會打一些折扣。

  不光在碼頭,其實工廠內的調度優化也是這樣,我們雖然追求全局優化,但還是要考慮現實的條件,哪些數據不可得,包括得到之后他節省的成本到底有多高,都要認真考慮,當然技術上肯定會盡最大的努力來做。

  空中樓閣:與組織形態失配的數據分析很難落地

  過去我們也做過一些,從技術上可行,甚至精度還不錯,例如在設備故障診斷里一些重大部件的故障預測,雖然樣本比較少,結合一些機理和數據挖掘知識,有的時候還可以做出來一個不錯的結果。

  但是結果落地的時候,其實大家很沮喪,問題就在于我就發現一個問題,有的時候預示著在現有的考核體系下,可能會某種程度上暗示著現有的運維團隊做的不到位,過去的定期維護做的不太好。這時候要指望現場一線團隊給出真實的或者及時的反饋,通常很難。

  大家可以聯想一下,包括質量提升等各種課題都會遇到類似的問題,在工業以外,甚至在商業里的很多預測,推行的時候也會遇到類似的問題,這個課題正好是某個部門負責的,他天天用自己經驗來做,現在你用數據分析比以前更好,除非這個項目從歸口,從組織形態上做一定的調整,否則通常很難讓他真正用起來。

  避實就虛:追 “時髦”,講“套路”,忘記了本來可行的做法

  例如院線的票房預測,上映之前的預測,會決定排片到底當時排多少場,排什么時間段,到底做什么樣的排片策略?

  當時Google發了一篇論文,說通過Google搜索量可以準確預測一個影片的票房,這是一篇引用度蠻高的論文,當時國內好多人非常興奮,但把這樣的方式應用到國內,發現精度并不理想。其實我們是半信半疑的,一個影片票房的基本面是什么決定的?

  例如,電影類型與地區的匹配度,它是恐怖片還是什么片?院線里面不同的影院,比方有的是生活區的有CBD的;比方成都喜歡看古墓片,比方廣州喜歡看粵語片,上海喜歡看小資片,比方哈爾濱基本上一般是抗戰片、武打片比較好,不同地域的人的喜好,是不是都反映在搜索量上?除了題材之外,還有演員的活躍度,在社交媒體的活躍度,導演最近獲過什么獎?包括題材是個什么片?后來我們加入了很多,比如地理信息,包括一些過去不同院線之間的銷售趨勢,包括在什么社交媒體上看演員之間的影響力的增長趨勢,以及導演、演員和演員之間誰和誰搭配比較好。

  我們當然希望用最簡單的方式,就能預測票房、備品備件需求,但還是要多問問本質問題,基本面要考慮全一點。有時候不是難在預測上,而是要考慮一些外部的人為和不可控的影響,包括宏觀經濟的變化。

  其實數據分析最應該做的,反而是那些現實中間時不時出現,但是人的經驗又做不好,又特別期望數據能幫忙的一些場景。

  這要求我們在數據處理上,即使有些情況基于現在的模型和數據支撐不了,也要預想到這些情況,至少知道這項技術的適用范圍是什么,而不是做了一個在特定情況下特別好的東西,就推而廣之。

  任何模型都是物理設計的一個簡化,都不可能脫離于物理世界,現在講數字孿生體,也要看模型用于研發階段還是在運維階段,畢竟不可能有一個模型百分之百的等于物理世界。

  在現實中說抓基本面,基本面是什么?比如做大宗物資的需求預測,就要梳理大宗物資供和需,它的驅動因素到底是什么?不用特別定量,先大概把關聯因素梳理完。比如做設備的運行優化、故障監測,不要一上來就用各種復雜的公式,其實更應該了解基本量之間的影響關系、動員關系。

  閃爍其詞:在“科學”名義下,以“非科學”的態度去做“科學”的事情

  做工業數據分析,我們需要知道一個模型的使用邊界,沒有一個模型能解決所有問題,或者適用于所有情況,除非它是一個偽科學。

  做數據分析6個階段,真正耗時的是什么?是最早的業務問題理解,這也是最關鍵的階段。當然CRISP-DM默認把社會分工做好了,假設數據分析師只做數據挖掘,數據分析,在現實中間不可能這么理想,有可能別人給你理出來的問題不一定正確,在某種程度上要重新定義問題,而不只是理解。

  當然,還有一些跨專業要理解,不熟悉的領域的背景知識都非常重要,做化工連化工原理都不知道,做電力連電力的基本動力學都不知道,去盲做就很容易挖出來一些常識,這是社會資源的一種浪費。

  第二比較耗時的是數據準備,正常情況下數據挖掘非常好做,但很多時候,數據挖掘偏偏是處理那些看起來不太正常,但在現實中間經常出現的一些狀況。作為一個嚴謹的數據分析師,我們要從數據中間,看到好多業務專家早期沒有想到的一些信號,甚至是他認為不可能在數據中出現,或是他習空見慣,沒意識到,沒給介紹的一些情況,這些有時候會大大影響分析模型的準確度。要自動執行的時候,可用性是非常重要的。

  數據只是一種表象,作為數據分析師,我們的態度是相信數據,但是不迷信數據,因為數據本身的采集方式可能會有偏差,比方以前講的「幸存者偏差」,只有沒被打掉的飛機才飛回來了,所以我們損失了很多,薄弱環節被打掉的一些信息。

  有些數據的采集方式、采集精度,包括數據的樣本選擇上,可能會給我們誤導,看起來做的不錯,其實本身數據沒有反映物理現實。包括傳感器的安裝位置,傳感器本身的測量原理,可能會給數據本身帶來一定的影響,這時候需要比較謹慎和樂觀的態度去挖掘,同時要像其他工科一樣反復推敲,這是非常糾結和磨難的一個過程。

  從某種程度上,數據分析的整個過程,和傳統的工科工程化方法是一樣的。任何東西都是基于一定的假設所做出來,放到一個現實中,或者相對客觀的現實中去驗證,驗證完之后,反復的去觀察,這樣才有可能從一定規律上反映了這個物理現實。

  什么叫科學的態度,就是要反復問,任何東西都是可以被證偽或證實的,沒有什么東西是絕對對或者絕對錯的。

  舍本從末:把一個簡單的問題復雜化

  數據分析師,有時候經意不經意地把一個問題給復雜化了,有時候有些工藝機理非常簡單,基本面就在那,沒必要把這個問題拔到一個深度學習或者一個什么高深的方法來做。

  該簡單的問題就簡單處理,不要在不重要的地方花太多時間,好多數據分析師都是比較較真的,像我早期也是,細枝末節沒搞清楚,心里就不舒服。

  數據分析作為一個工程化方法,要抓大放小,在一定的時間、空間、時間、費用的約束下,做到最好。

  我以前學控制的,到大四的時候,接到一個實際衛星的姿態控制項目,上來我們就列狀態方程傳遞函數,因為衛星模型也比較成熟,先證明穩定性,再通過根軌跡或者是波特圖設計做控制系統的設計。我自己當時非常得意,因為上學上了十幾年,第1次看到自己學了這么多年的東西,終于在現實中間有點用了。

  我們去跟航天的專家交流,對方給的評價也比較高,當時我問,你們做衛星設計的時候,怎么做?他說,其實沒有你考慮那么復雜,把不重要的全忽略掉,衛星三個軸都是耦合的,你不妨假設三個軸是解耦的,剩下的你就把它想象成一個剛體,到底偏了幾度,你到底多少分鐘想把它轉回來?你能加多大的力?加多大力,電流馬上就轉換成控制參數。星箭分離之后,到底噴氣怎么噴?你想加多大的沖量,一個沖量噴一下持續多少秒,然后產生多大沖量,沖量產生多大加速度,我要多少秒糾正過來?基本面就這么多,就這么簡單。

  當時對我觸動蠻大的,不要一上來就把一些不重要的復雜因素都考慮進去,這個觀念一路影響我后面的研究與分析。當然任何簡化都是有前提的,在衛星仿真里面,這種簡化是在小角度或者接近穩定的情況下使用,如果大部件分離或者太陽能翻板剛打開等大動態的情況下,簡化是非常危險的。

  再舉個例子,風力發電機葉片結冰,可以做成結冰檢測,在結冰嚴重,PLC警報之前,早期檢測出來;也可以做結冰預測,但這兩個問題難度差是十萬八千里。結冰預測的前提,首先要做天氣預報。

  大家也都知道宏觀天氣預報,氣象局努力了這么多年,也上了很多手段,在有些地方有時候還是預測不準。且不說我們要做局部天氣預報,每個風機每個截面都要做,還要做到以小時計,這非常難的,這是一個世界難題,非常難做。

  我們有時候有意無意的把一個問題復雜化,做結冰檢測,其實就看風機的運行狀態,就看它的出力和風速的關系,有沒有一個持續的緩慢的下降,或者再綜合其他的故障信息,就能把一個問題簡化不少。

  因陋就簡:數據基礎不健全,就輕易放棄

  是不是數據基礎不好,我就不要做大數據?對數據分析師來說,數據質量從來沒好過。

  我也接觸過商業的數據,銀行的數據、電信的數據稍微偏好一點,但是對我們數據分析師那種孜孜不倦的要求來講,數據質量從來沒好過,我是深有體會。

  以前在境外做過一個城市管網的失效預測,預測一個地下水管網,明年哪個管子可能會壞?從數據的質量講,客戶非常自信,因為他的信息化水平大概領先于國內十多年。

  我需要最基本的管網的管件、管材管理,所處位置,地面的交通數據、環境數據,包括附近有什么建筑物,他的土地利用性質,還需要天氣數據……他說這都有,一個地方政府能把每條道路的交通流量,每個地方土地使用性質附近有什么建筑物,包括最近有沒有下雨,甚至整個管網的壓力區,平均水壓是多少都能給出來。

  如果單個看,每種數據缺失都不太嚴重,數據完整度能到80%。但是一旦把這些因素關聯起來,要建模型的時候,我要把管網本身的特性、土地使用性質、天氣信息、土壤的酸堿度信息等綜合來預測,這時候一一關聯起來就發現,真的有完整數據的管道,不到30%。

  這其實讓客戶非常震驚,數據集相互孤立著,有些字段偶爾缺一點也不明顯,但是對數據分析來說,我要關聯起來看,要橫著看豎著看,所以我對數據質量的要求非常高。

  從我們數據分析來看,其實數據基礎健不健全都是相對的,有些數據分析發現的數據缺失,也是幫助信息化建設來把它不斷的補全的一個過程。有什么樣的數據做什么樣事,哪怕數據不全,也可以從簡單的做,從容易的做,從基礎比較好的地方做。

  任何一個正常的科學技術都是有邊界的,工業大數據作為一個技術,肯定有適用和不適用的范圍。

版權所有 中華工控網 Copyright?2025 Gkong.com, All Rights Reserved
主站蜘蛛池模板: 精品性高朝久久久久久久 | 精品久久久久久国产 | 福利视频网址 | 亚洲精品一区二三区不卡 | 国产人成亚洲第一网站在线播放 | 久久久久久久亚洲精品 | 国产高清视频在线 | 国产精品久久久久一区二区三区 | 精品久久久久久久 | 亚洲免费看片 | 福利一区二区在线 | 欧美专区在线 | 成人亚洲一区 | 国产精品久久久久久久久久东京 | 欧美插插插 | 日韩 国产 欧美 精品 在线 | 亚洲精品一区 | 五月婷婷激情综合网 | wwwxx免费 | 91精品国产99久久久久久久 | 免费看的av| 国产视频中文字幕 | 黄色国产视频 | 99久久精品免费看国产一区二区三区 | va天堂 | 爱情岛论坛首页永久网址 | 国产综合区 | 亚洲黄色在线视频 | 国产精品久久国产三级国电话系列 | 国产精品久久久爽爽爽麻豆色哟哟 | 操操操av | 夜夜久久久 | 中文字幕第一页在线播放 | 欧美一区二区三区在线 | 九九热这里只有 | 性一区| 国产伦精品一区二区三区四区免费 | 男的操女的视频 | 一区二区三区四区五区视频 | 亚洲免费在线视频 | 国产成人高清视频 |