OCRTesseract 类


  • public class OCRTesseract
    extends BaseOCR
    OCRTesseract 类提供了一个与 C++ 中的 tesseract-ocr API (v3.02.02) 的接口。请注意,只有在正确安装 tesseract-ocr 时才会编译它。注意:
    • (C++) OCRTesseract 识别与场景文本检测相结合的示例可以在 end_to_end_recognition 演示中找到:<https://github.com/opencv/opencv_contrib/blob/master/modules/text/samples/end_to_end_recognition.cpp>
      • (C++) OCRTesseract 识别与场景文本检测相结合的另一个示例可以在 webcam_demo 中找到:<https://github.com/opencv/opencv_contrib/blob/master/modules/text/samples/webcam_demo.cpp>
    • 构造函数摘要

      构造函数 
      修饰符 构造函数 描述
      protected OCRTesseract​(long addr)  
    • 方法摘要

      所有方法 静态方法 实例方法 具体方法 
      修饰符和类型 方法 描述
      static OCRTesseract __fromPtr__​(long addr)  
      static OCRTesseract create()
      创建一个 OCRTesseract 类的实例。
      static OCRTesseract create​(java.lang.String datapath)
      创建一个 OCRTesseract 类的实例。
      static OCRTesseract create​(java.lang.String datapath, java.lang.String language)
      创建一个 OCRTesseract 类的实例。
      static OCRTesseract create​(java.lang.String datapath, java.lang.String language, java.lang.String char_whitelist)
      创建一个 OCRTesseract 类的实例。
      static OCRTesseract create​(java.lang.String datapath, java.lang.String language, java.lang.String char_whitelist, int oem)
      创建一个 OCRTesseract 类的实例。
      static OCRTesseract create​(java.lang.String datapath, java.lang.String language, java.lang.String char_whitelist, int oem, int psmode)
      创建一个 OCRTesseract 类的实例。
      protected void finalize()  
      java.lang.String run​(Mat image, int min_confidence)
      使用 tesseract-ocr API 识别文本。
      java.lang.String run​(Mat image, int min_confidence, int component_level)
      使用 tesseract-ocr API 识别文本。
      java.lang.String run​(Mat image, Mat mask, int min_confidence)  
      java.lang.String run​(Mat image, Mat mask, int min_confidence, int component_level)  
      void setWhiteList​(java.lang.String char_whitelist)  
      • 从类 java.lang.Object 继承的方法

        clone, equals, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
    • 构造函数详情

      • OCRTesseract

        protected OCRTesseract​(long addr)
    • 方法详情

      • __fromPtr__

        public static OCRTesseract __fromPtr__​(long addr)
      • run

        public java.lang.String run​(Mat image,
                                    int min_confidence,
                                    int component_level)
        使用 tesseract-ocr API 识别文本。将图像作为输入,并在 output_text 参数中返回识别的文本。还可以选择性地提供单个文本元素(例如单词)的矩形以及这些文本元素及其置信度值的列表。
        参数
        image - 输入图像 CV_8UC1 或 CV_8UC3 找到的文本元素(例如单词或文本行)。找到的单个文本元素(例如单词或文本行)的识别。用于识别找到的单个文本元素(例如单词或文本行)。
        component_level - OCR_LEVEL_WORD(默认)或 OCR_LEVEL_TEXTLINE。
        min_confidence - 自动生成
        返回
        自动生成
      • run

        public java.lang.String run​(Mat image,
                                    int min_confidence)
        使用 tesseract-ocr API 识别文本。将图像作为输入,并在 output_text 参数中返回识别的文本。还可以选择性地提供单个文本元素(例如单词)的矩形以及这些文本元素及其置信度值的列表。
        参数
        image - 输入图像 CV_8UC1 或 CV_8UC3 找到的文本元素(例如单词或文本行)。找到的单个文本元素(例如单词或文本行)的识别。用于识别找到的单个文本元素(例如单词或文本行)。
        min_confidence - 自动生成
        返回
        自动生成
      • run

        public java.lang.String run​(Mat image,
                                    Mat mask,
                                    int min_confidence,
                                    int component_level)
      • run

        public java.lang.String run​(Mat image,
                                    Mat mask,
                                    int min_confidence)
      • setWhiteList

        public void setWhiteList​(java.lang.String char_whitelist)
      • create

        public static OCRTesseract create​(java.lang.String datapath,
                                          java.lang.String language,
                                          java.lang.String char_whitelist,
                                          int oem,
                                          int psmode)
        创建一个 OCRTesseract 类的实例。初始化 Tesseract。
        参数
        datapath - tessdata 的父目录名称,以“/”结尾,或 NULL 以使用系统的默认目录。
        language - ISO 639-3 代码或 NULL 将默认为“eng”。
        char_whitelist - 指定用于识别的字符列表。NULL 默认为 ""(所有字符都将用于识别)。
        oem - tesseract-ocr 提供不同的 OCR 引擎模式 (OEM),默认情况下使用 tesseract::OEM_DEFAULT。有关其他可能的值,请参阅 tesseract-ocr API 文档。
        psmode - tesseract-ocr 提供不同的页面分割模式 (PSM),使用 tesseract::PSM_AUTO(全自动布局分析)。有关其他可能的值,请参阅 tesseract-ocr API 文档。注意:OpenCV 4.7.0/3.19.0 之后,char_whitelist 的默认值已从 "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ" 更改为 ""。
        返回
        自动生成
      • create

        public static OCRTesseract create​(java.lang.String datapath,
                                          java.lang.String language,
                                          java.lang.String char_whitelist,
                                          int oem)
        创建一个 OCRTesseract 类的实例。初始化 Tesseract。
        参数
        datapath - tessdata 的父目录名称,以“/”结尾,或 NULL 以使用系统的默认目录。
        language - ISO 639-3 代码或 NULL 将默认为“eng”。
        char_whitelist - 指定用于识别的字符列表。NULL 默认为 ""(所有字符都将用于识别)。
        oem - tesseract-ocr 提供不同的 OCR 引擎模式 (OEM),默认情况下使用 tesseract::OEM_DEFAULT。有关其他可能的值,请参阅 tesseract-ocr API 文档。(全自动布局分析)使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。注意:OpenCV 4.7.0/3.19.0 之后,char_whitelist 的默认值已从 "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ" 更改为 ""。
        返回
        自动生成
      • create

        public static OCRTesseract create​(java.lang.String datapath,
                                          java.lang.String language,
                                          java.lang.String char_whitelist)
        创建一个 OCRTesseract 类的实例。初始化 Tesseract。
        参数
        datapath - tessdata 的父目录名称,以“/”结尾,或 NULL 以使用系统的默认目录。
        language - ISO 639-3 代码或 NULL 将默认为“eng”。
        char_whitelist - 指定用于识别的字符列表。NULL 默认为 ""(所有字符都将用于识别)。tesseract::OEM_DEFAULT 使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。(全自动布局分析)使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。注意:OpenCV 4.7.0/3.19.0 之后,char_whitelist 的默认值已从 "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ" 更改为 ""。
        返回
        自动生成
      • create

        public static OCRTesseract create​(java.lang.String datapath,
                                          java.lang.String language)
        创建一个 OCRTesseract 类的实例。初始化 Tesseract。
        参数
        datapath - tessdata 的父目录名称,以“/”结尾,或 NULL 以使用系统的默认目录。
        language - ISO 639-3 代码或 NULL 将默认为“eng”。(所有字符都将用于识别)。tesseract::OEM_DEFAULT 使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。(全自动布局分析)使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。注意:OpenCV 4.7.0/3.19.0 之后,char_whitelist 的默认值已从 "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ" 更改为 ""。
        返回
        自动生成
      • create

        public static OCRTesseract create​(java.lang.String datapath)
        创建一个 OCRTesseract 类的实例。初始化 Tesseract。
        参数
        datapath - tessdata 的父目录名称,以“/”结尾,或 NULL 以使用系统的默认目录。(所有字符都将用于识别)。tesseract::OEM_DEFAULT 使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。(全自动布局分析)使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。注意:OpenCV 4.7.0/3.19.0 之后,char_whitelist 的默认值已从 "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ" 更改为 ""。
        返回
        自动生成
      • create

        public static OCRTesseract create()
        创建一个 OCRTesseract 类的实例。初始化 Tesseract。系统的默认目录。(所有字符都将用于识别)。tesseract::OEM_DEFAULT 使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。(全自动布局分析)使用。有关其他可能的值,请参阅 tesseract-ocr API 文档。注意:OpenCV 4.7.0/3.19.0 之后,char_whitelist 的默认值已从 "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ" 更改为 ""。
        返回
        自动生成
      • finalize

        protected void finalize()
                         throws java.lang.Throwable
        覆盖
        finalize 在类 BaseOCR
        抛出
        java.lang.Throwable