背景:

當前還(hái)有很多工廠、國企、小規模公司等都采用手工登記(jì)考勤的方式進行考勤,每月月底需要花大量時間將手(shǒu)工考(kǎo)勤進行手工錄入並生成考勤表或將考勤(qín)記錄導入到考勤係統中,這樣(yàng)就產生了大量重複工(gōng)作,希望(wàng)能做OCR識別減低工作(zuò)量,手工登記考勤的記錄如下:

格式一:

格式二:

限製條件(jiàn):
1.不(bú)使用(yòng)考勤機、人臉(liǎn)考勤、手機移動(dòng)考勤等考勤設備進行打卡(kǎ)。

2.不使用雲考勤平台、考勤係統、考勤軟件打卡管理功能


難點:
是手寫體並且有連(lián)寫、部份超格或一定量(liàng)塗改,這些都不受控製(zhì)。網上的OCR識別都是以(yǐ)單個不連體數字舉例。

突破要點:
1、表格格式固定。手寫體隻有0-9共計(jì)10個數(shù)字(zì)和兩(liǎng)個符號:冒號":"和點'."。
2、手寫時間識別(bié)相對較難(nán),但格式有一定規律(lǜ):格式為HH:MM,其中MM固定為00或者30。窮舉HH:MM的所有組合也才幾十個(gè)。
3、考勤(qín)人員雖有流動(dòng)性但相對還是固定,也就是說每個人的字體具有連貫性。

個人感覺這(zhè)個任務比較適合有監督的機器學習來解決,但隻會(huì)簡單的一些python,沒實際操作過機器學(xué)習或文字識別,請指點:
1、基(jī)於現狀,是否有現成的商業(yè)考勤軟(ruǎn)件或考勤管理係統(可以輔助少(shǎo)量人工)可以實現?
2、如果沒有合適的現成軟件,是否(fǒu)有合適的(de)開源庫之類可以(yǐ)直接實現?
3、如果以上都沒有,推薦(jiàn)一下合適的技術(shù)方案(有大概的步驟和實現難度估算)

問題分析:

1.分析常用時間(jiān)種類:

(1)開始時間(jiān):從9:00到15:00共(gòng)13種。

(2)結束時間:從15:00到(dào)23:00共17種。

2.時(shí)間寫法(fǎ)特征:

(1)以整點或半點的形式出現。

(2)開始時間與結束時間是分開的。

(3)同(tóng)一格(gé)內的時間符號有交叉(chā)、出格。

3.解決方案:

(1)對開始時間和結束(shù)時間分開訓練,分開識別。同一格內的時間(jiān)整體識別,不分字符。

(2)對超出上(shàng)麵分析的(de)時(shí)間(jiān)種類的其(qí)他特殊時(shí)間(jiān),在考勤表上注明填寫(xiě)要求,比如寫在第三列和第四列,或者換張特殊時間考勤表,然後人工輔助處理。

(3)掃描時(shí)間獲取樣本時,識別出格子線,截取時,上下增加範圍,可兼容出格。

(4)其他慢慢考(kǎo)慮。

4.實現難度(dù):

(1)按表格線分割(gē)出開始和結束時間。難(nán)度在如何識別出表格線。算法應該有現成的,容易(yì)獲得。

(2)模型設計。可能(néng)需要多次嚐試。但(dàn)標簽種類較少,計算量不大,訓練時間不長,可以試驗很多個模(mó)型。

(3)識別率問(wèn)題。如(rú)果識別率不(bú)高,人工核查將很困難。考慮到分類數少,時間整體寫法也不亂(與單個字符無(wú)關),樣本質量很高,識別率應該不錯的,好的模(mó)型可能會上99+%。也可以把(bǎ)時間公布在(zài)聯網機器上,讓人自己在手機上核(hé)查。甚至,在識別時直接根(gēn)據概率分布,把相對不可信的識別顯示出來人工核查。


您可以返回【考勤係統】首頁或進入【新聞資訊】閱讀更多資訊