Новости | Магазин | Журналы | Контакты | Правила | Доставка | |
Вход Регистрация |
Цель исследования: разработка метода обнаружения областей текста с приватными данными на медицинских диагностических изображениях при помощи модуля Tesseract и модифицированного расстояния Левенштейна.Материал и методы. Для пороговой фильтрации на начальном этапе определяется яркость точек, принадлежащих символам текста на изображениях. Динамический порог вычисляется по гистограмме яркостей пикселей изображения. Далее для первичного распознавания текста используется модуль Tesseract. На основании значений тэгов из DICOM-файлов формировался набор строк для поиска их в распознанном тексте. Для поиска этих строк использовалось модифицированное расстояние Левенштейна. Для тестирования алгоритма применялся набор DICOM файлов типа “Dose Report” модальности CT. Оценку точности проводили эксперты, размечающие блоки приватной информации на изображениях.Результаты. Разработан инструмент с набором метрик и оптимальных порогов для выбора решающих правил в нахождении совпадений, позволяющих обнаруживать области текста с приватными данными на медицинских изображениях. Для этого инструмента определена точность локализации областей с личными данными по сравнению с экспертной разметкой, которая составляет 99,86%.Заключение. Разработанный в рамках настоящего исследования инструмент позволяет выявлять персональные данные на цифровых медицинских изображениях с высокой точностью, что указывает на возможность его практического применения при подготовке наборов данных.
Ключевые слова:
оптическое распознавание текста, медицинские изображения, свёрточные нейронные сети, Tesseract, анонимизация данных, DICOM, optical character recognition (OCR), medical images, convolutional neural networks, Tesseract, DICOM, data anonymization
Литература:
1.dicomstandard.org. Dicom standard: Current Edition. Available from: https://www.dicomstandard.org/current.
2.Aryanto K.Y.E., Oudkerk M., van Ooijen P.M.A. Free dicom de-identification tools in clinical research: functioning and safety of patient privacy. Eur. Radiol. 2015; 25 (12): 3685–3695. http://doi.org/10.1007/s00330-015-3794-0
3.Daye D., Wiggins W.F., Lungren M.P. et al. Implementation of Clinical Artificial Intelligence in Radiology: Who Decides and How? Special Rep. Radiol. 2022; 305 (1): E62. http://doi.org/10.1148/radiol.229021
4.dclunie.com. David Clunie's Medical Image Format Site: Dicomcleaner. Available from: http://www.dclunie.com.
5.Cook T.S., Zimmerman S.L., Steingall S.R. et al. Radiance: An automated, enterprise-wide solution for archiving and reporting ct radiation dose estimates. Radiographics. 2011; 31 (7): 1833–1846. http://doi.org/10.1148/rg.317115048
6.Vcelak P., Kryl M., Kratochvil M., Kleckova J. Identification and classification of dicom files with burned-in text content. Int. J. Med. Inform. 2019; 126: 128–137. http://doi.org/10.1016/j.ijmedinf.2019.02.011.
7.Monteiro E., Costa C., Oliveira J.L. A de-identification pipeline for ultrasound medical images in dicom format. J. Med. Syst. 2017; 41 (5): 89. http://doi.org/10.1007/s10916-017-0736-1.
8.Kin G., Tsui W., Chan T. Automatic selective removal of embedded patient information from image content of dicom files. Am. J. Roentgenol. 2012; 198 (4): 769–772. http://doi.org/10.2214/AJR.10.6352
9.Smith R. An overview of the Tesseract OCR engine. Proc. in Int. Conference on Document Analysis and Recognition (ICDAR). 2007; 629–633. http://doi.org/10.1109/ICDAR.2007.56
10.Левенштейн В. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады АН СССР. 1965; 163: 845–848.
11.Schulz K., Mihov S. Fast string correction with levenshtein automata. IJDAR. 2002; 5: 67–85. http://doi.org/10.1007/s10032-002-0082-8
12.github.com. Center of Diagnostics and Telemedicine. Find Anomalies in Tomography. Medical images markup system. Available from: https://github.com/Center-of-Diagnostics-andTelemedicine/FAnTom.
13.Mason D. SU-E-T-33: Pydicom: An Open Source DICOM Library. Medical Physics. 2011; 38 (6, Part 10): 3493–3493. ttp://doi.org/10.1118/1.3611983
14.Bradski G. The OpenCV Library. Dr Dobb's Journal of Software Tools. 2000.
15.Павлов Н.А., Андрейченко А.Е., Владзимирский А.В., Ревазян А.А., Кирпичев Ю.С., Морозов С.П. Эталонные медицинские датасеты (MosMedData) для независимой внешней оценки алгоритмов на основе искусственного интеллекта в диагностике. Digital Diagnostics. 2021; 2 (1): 49–66. http://doi.org/10.17816/DD60635
16.Morozov S.P., Gombolevskiy V.A., Elizarov A.B. et al. A simplified cluster model and a tool adapted for collaborative labeling of lung cancer CT scans. Comput. Methods Programs Biomed. 2021; 206: 106–111. http://doi.org/10.1016/j.cmpb.2021.106111.
17.О персональных данных:.
The aim of the study is to develop a method for detecting areas of text with private data on medical diagnostic images using the Tesseract module and the modified Levenshtein distance.Materials and methods. For threshold filtering, the brightness of the points belonging to the text characters in the images is determined at the initial stage. The dynamic threshold is calculated from the histogram of the brightness of the pixels of the image. Next, the Tesseract module is used for primary text recognition. Based on the tag values from DICOM files, a set of strings was formed to search for them in the recognized text. A modified Levenshtein distance was used to search for these strings. A set of DICOM files of the “Dose Report” type was used to test the algorithm. The accuracy was assessed by experts marking up blocks of private information on images.Results. A tool has been developed with a set of metrics and optimal thresholds for choosing decisive rules in finding matches that allow detecting areas of text with private data on medical images. For this tool, the accuracy of localization of areas with personal data on a set of 1131 medical images was determined in comparison with expert markup, which is 99.86%.Conclusion. The tool developed within the framework of this study allows identifying personal data on digital medical images with high accuracy, which indicates the possibility of its practical application in the preparation of data sets.
Keywords:
оптическое распознавание текста, медицинские изображения, свёрточные нейронные сети, Tesseract, анонимизация данных, DICOM, optical character recognition (OCR), medical images, convolutional neural networks, Tesseract, DICOM, data anonymization