نقشک بسته

VScan

A visual perception layer for the blind
جدید در نگارش ۰٫۲٫۳
- There is now a standalone editor for entering the system prompt and user prompt. This editor has a large text field, which should make it easy to work with long and complex prompts.
- Various UI improvements and bug fixes.

This is a little project of mine aiming to research how vision LLMs could help out blind people on travel and in their every-day life by substituting eyesight for various visual tasks. VScan turns your smartphone's camera into a device for visual perception. You can define various optical cognitive functions, like looking for objects, signs, evaluating a scene or simply mediating visual impressions. You can afterwards use these functions on the camera view, just like a sighted person would use their eyes to achieve a specific goal in the physical world.


Each cognitive tool consists of two major parts:

  • The camera to be used - front / back, as well as camera parameters - resolution, flashlight etc.

  • The prompts used for LLM processing. LLM is the bridge between raw pixel data and your interpretation of it, and in the user/system prompt, you can specify what exactly are you interested in for the particular function and how should it be communicated, as well as the LLM model that should be used.


Camera input in combination with an LLM processing prompt forms a cognitive function, which can be used to serve various visual tasks.


VScan is open-source software. Visit the project's official repository to learn more about its background, motivation, specific usage examples and setup instructions.

نگارش‌ها

با وجود موجود بودن بارگیری‌های APK برای دادن حق گزینش، باید آگاه باشید که با نصب به این روش، آگاهی‌های به‌روز رسانی را دریافت نکرده و راهی ناامن برای بارگیری است. پیشنهاد می‌شود کارهٔ اف‌دروید را نصب و از آن استفاده کنید.

بارگیری اف‌دروید
  • نگارش ۰٫۲٫۳ (۲۳) پیشنهادی افزوده در 12d Oct 25

    arm64-v8a armeabi-v7a x86 x86_64

    این نگارش، به اندروید ۷٫۰ یا جدیدتر نیاز دارد.

    به دست توسعه‌دهندهٔ اصلی ساخته، امضا شده و برای تطبیق با این کد مبدأ تضمین شده است.

    اجازه‌ها
    • عکسبرداری و فیلمبرداری
      هنگامی که از برنامه استفاده می‌شود، این برنامه می‌تواند بااستفاده از دوربین عکس و فیلم بگیرد.
    • دسترسی به داده‌های حسگر با نرخ نمونه‌برداری بالا
      به برنامه اجازه می‌دهد داده‌های حسگر را با نرخ بیش‌از ۲۰۰ هرتز نمونه‌برداری کند
    • دسترسی کامل به شبکه
      به برنامه امکان می‌دهد سوکت‌های شبکه را ایجاد کند و از پروتکل‌های شبکه سفارشی استفاده نماید. مرورگر و سایر برنامه‌ها روشی را برای ارسال داده‌ها به اینترنت ارائه می‌کنند بنابراین این مجوز برای ارسال داده به اینترنت ضروری نیست.
    • android.permission.READ_EXTERNAlSTORAGE
    • ضبط صدا
      هنگامی که از برنامه استفاده می‌شود، این برنامه می‌تواند بااستفاده از میکروفون صدا ضبط کند.
    • android.permission.WRITE_EXTERNAlSTORAGE
    • com.rastislavkish.vscan.DYNAMIC_RECEIVER_NOT_EXPORTED_PERMISSION

    بارگیری APK ۶٫۶ می‌ب امضای PGP | گزارش ساخت